与知识库对话 - 主流TTS-语音合成技术

回答

语音合成（Speech Synthesis）是将文本转换为可听的声音信息，赋予了像人一样说话的能力，是人机交互的重要接口。一般而言，语音合成的概念比文语转换（Text-to-Speech，TTS）涵盖范围更广，包括 TTS、歌唱合成等领域，但多数情况下可混用。awesome-tts-samples提供了一些端到端语音合成模型的样例，可感受目前语音合成的发展。

人类通过一整套发音器官合成语音，肺相当于动力源，喉相当于调制器，声道相当于滤波器，口唇相当于扩音器。研究人员提出以源-滤波器（source-filter）模型为代表的多种模型建模该过程，语音中有清音和浊音，分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。

当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端将输入文本转换为层次化的语音学表征，主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征生成语音，主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法，当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分，也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征（如梅尔频谱），直接决定合成语音的韵律；声码器将中间声学特征转换为语音波形，直接决定合成语音的音质。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

TTS超全教程

语音合成（Speech Synthesis）将文本转换为可听的声音信息，它赋予了像人一样说话的能力，是人机交互的重要接口。一般来说，语音合成的概念比文语转换（Text-to-Speech，TTS）的涵盖范围更广，语音合成包括TTS、歌唱合成等领域，但大多数情况下可以混用。[awesome-tts-samples](https://github.com/seungwonpark/awesome-tts-samples)提供了一些端到端语音合成模型的样例，可以简单感受下目前语音合成的发展。人类可以通过一整套发音器官合成语音，具体来说，肺相当于动力源，喉相当于调制器，声道相当于滤波器，口唇相当于扩音器。研究人员提出了以源-滤波器（source-filter）模型为代表的多种模型建模该过程，语音中存在清音和浊音，分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征，主要包括文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征（linguistics feature）来生成语音，主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法，当代主要采用端到端声学后端。端到端声学后端一般包括声学模型和声码器两部分，同时也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征，比如梅尔频谱，直接决定合成语音的韵律；声码器将中间声学特征转换为语音波形，直接决定合成语音的音质。