Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

TTS

Answer

语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换成“人造”语音。

技术原理:

  1. 文本与韵律分析:先将文本分词,标明每个字的发音以及重音、停顿等韵律信息,然后提取文本的特征,生成特征向量。
  2. 声学处理:通过声学模型将文本特征向量映射到声学特征向量。
  3. 声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后依次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。

参考资料:CUI三部曲之语音合成——机器如何回答你的话?

出门问问的语音合成(TTS)API:

  • 接口描述:
    • 接口请求域名:https://open.mobvoi.com/api/tts/v1
    • 接口请求频率限制:5 次/秒
    • 可以将任意文本转化为语音,应用场景包括视频 APP 配音解说、小说 App 有声阅读、移动 App 语音播报新闻、智能设备语音提醒、车载导航语音合成的个性化语音播报等。提供了普通话、台湾腔、粤语、四川话、东北话等多种方言,数百个发音人,上千种风格。
  • 请求参数:
    • HTTP Method:支持 POST 请求
    • 调用参数及说明:
      • 字段名:text,必填,类型为 String,要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。
      • 字段名:appkey,必填,类型为 String,开发者在 AI 开放平台上申请的 appkey。
      • 字段名:signature,必填,类型为 String,签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。每次请求实时计算签名,签名有效期为 10 分钟。
      • 字段名:timestamp,必填,类型为 Long,当前时间戳,单位为秒。
      • 字段名:speaker,否,类型为 String,合成音频指定发音人,默认值:cissy_meet,其他发音人传值及计费价格请参考声音商店。
      • 字段名:audio_type,否,类型为 String,合成音频的格式,默认值:mp3,可选值:pcm/mp3/speex-wb-10/wav,只支持这四种格式中的一种。
      • 字段名:speed,否,类型为 Float,发音人合成的语速,支持小数点后两位,默认值:1.0,可选值:0.5 - 2.0。
    • Request Header 设置
Content generated by AI large model, please carefully verify (powered by aily)

References

语音合成

语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换成“人造”语音。[heading3]技术原理[content]传统的语音合成技术一般会经过文本与韵律分析、声学处理与声音合成三个步骤。1.文本与韵律分析:先将文本分词;再标明每个字的发音以及重音、停顿等韵律信息;然后提取文本的特征,生成特征向量。2.声学处理:通过声学模型将文本特征向量映射到声学特征向量。3.声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后一次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。[heading3]参考资料[content][CUI三部曲之语音合成——机器如何回答你的话?](https://mp.weixin.qq.com/s/9QSdesjVlHVdfS_pUvLbMA)

照片数字人工作流及语音合成(TTS)API- 出门问问Mobvoi

1.接口描述接口请求域名:https://open.mobvoi.com/api/tts/v1接口请求频率限制:5次/秒出门问问语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。出门问问TTS技术可以应用到很多场景,例如,在视频APP中作为配音解说;小说App完成有声阅读,移动App语音播报新闻;智能设备语音提醒;车载导航语音合成的个性化语音播报等。出门问问TTS服务提供了普通话、台湾腔、粤语、四川话、东北话等多种方言,数百个发音人,上千种风格,满足客户在不同场景的选择需求。实时合成支持SSML,语法详见SSML标记语言。1.请求参数HTTP Method:支持POST请求调用参数及说明:

照片数字人工作流及语音合成(TTS)API- 出门问问Mobvoi

调用参数及说明:|字段名|必填|类型|描述||-|-|-|-||text|是|String|要合成的文本内容,限制为1000字符。支持ssml标记语言,使用说明见附录3。||appkey|是|String|开发者在AI开放平台上申请的appkey。||signature|是|String|签名,通过“appkey+secret+timestamp”进行md5加密,得到的32位MD5值。其中加号也参与MD5的计算。<br>每次请求实时计算签名,签名有效期为10分钟。||timestamp|是|Long|当前时间戳,单位为秒。||speaker|否|String|合成音频指定发音人<br>默认值:cissy_meet<br>其他发音人传值及计费价格请参考声音商店。||audio_type|否|String|合成音频的格式<br>默认值:mp3<br>可选值:pcm/mp3/speex-wb-10/wav<br>只支持这四种格式中的一种||speed|否|Float|发音人合成的语速,支持小数点后两位<br>默认值:1.0<br>可选值:0.5-2.0|Request Header设置

Others are asking
TTS的最佳解决方案
以下是关于 TTS 的一些最佳解决方案: 在线 TTS 工具推荐: Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为多种平台的应用使用,用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型。 TTS 音库制作和文本前端: 录音文本收集:在一个语种的语音合成建设之初,可同步收集该语种对应的大文本。录音文本的选择一般遵循以下原则: 音素覆盖:构建基础的文本前端,确保录音文本的音素或音素组合尽可能覆盖全。 场景定制:根据通用或特定场景需求,确保相关内容有所覆盖,并与需求方紧密沟通。 文本正确性:确保录音文本拼写无误,内容正确。 照片数字人工作流及语音合成(TTS)API 出门问问 Mobvoi: 接口请求域名:https://open.mobvoi.com/api/tts/v1 。 接口请求频率限制:5 次/秒。 可以将任意文本转化为语音,应用场景广泛,提供多种方言、发音人和风格,实时合成支持 SSML。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-07
chatTTS
ChatTTS 是一个用于对话的生成式语音合成模型,具有以下特点: 优势: 真实度和自然度惊艳。 有更好的韵律,能生成接近真人音色的语气语调。 对中文支持良好,中英混合也没问题。 可进行细粒度控制,能预测和控制如笑声、停顿和插话等韵律特征。 能自然流畅地语音合成,支持多说话人,同时提供预训练模型。 劣势: 推理速度慢,无法应用在实时语音场景,离线场景需大量后期修正工作。 对于阿拉伯数字、标点符号,refine 后效果不佳。 有时会出现不稳定情况,自动删除或增加一些内容,读绕口令时有卡顿。 在参数设置方面,常调整的参数主要是 Seed(种子数),不同的 Seed 对应不同的声音,目前较火的 Seed 为 2222。此外,输入文本时,除文字本身和控制符号外,还可控制笑声、停顿等副语言现象。 在使用时,对于 30 秒的音频,需要 4G 的显存。整合包增加了音质增强、批量处理、长文本切分等功能,Mac 版本默认绑定 8080 窗口,推出应用后需执行“lsof i:8080”得到程序的 PID 后 kill 程序,不然下一次启动会提示端口被占用。在输入文本准备生成时,可勾选音频增强和降噪进行进一步处理,增强后的音频会更清晰但处理时长会增加。生成的语音已达到“以假乱真”的程度,但为防止模型被用于诈骗等违法行为,作者在训练过程中添加了少量高频噪音,并压缩了音质。
2025-01-24
目前最好的TTS是什么
目前,ChatTTS 是备受关注的 TTS 之一。 其优势包括: 真实度和自然度很惊艳。 有更好的韵律,能生成接近真人音色的语气语调,对中文支持良好,中英混合也没问题。 能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等。 自然流畅的语音合成,同时支持多说话人,还提供预训练模型。 然而,它也存在一些劣势: 当前推理速度慢,无法应用在实时语音场景。用在离线场景,需要大量的后期修正工作。 对于阿拉伯数字、标点符号,refine 后效果不太好。 有时候会出现不稳定,自动删除或者增加一些内容在句子里,比如输入的内容是“你吃饭了没”,会莫名把句子改写一下变成了,“好吃,你吃饭了没”这种情况。 读绕口令也有人的那种卡顿(效果不稳定)。 另外,XiaoHu.AI 也表现出色,支持跨语言配音、语音克隆、情感控制等,表现优于现有 TTS 系统,提供对语音生成的多样性和情感控制,并允许局部编辑,实时可控编辑,支持对特定语音片段进行修改或替换。您可以通过以下链接获取更多信息: 更多案例: GitHub: 论文: 在线体验: 官方网站: PersonaTalk 也是字节跳动的 AI 配音模型。
2025-01-23
主流TTS-语音合成技术
语音合成(Speech Synthesis)是将文本转换为可听的声音信息,赋予了像人一样说话的能力,是人机交互的重要接口。一般而言,语音合成的概念比文语转换(TexttoSpeech,TTS)涵盖范围更广,包括 TTS、歌唱合成等领域,但多数情况下可混用。提供了一些端到端语音合成模型的样例,可感受目前语音合成的发展。 人类通过一整套发音器官合成语音,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出以源滤波器(sourcefilter)模型为代表的多种模型建模该过程,语音中有清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。 当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端将输入文本转换为层次化的语音学表征,主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征(如梅尔频谱),直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。
2025-01-07
主流TTS-语音合成技术
语音合成(Speech Synthesis)是将文本转换为可听的声音信息,赋予了像人一样说话的能力,是人机交互的重要接口。一般而言,语音合成的概念比文语转换(TexttoSpeech,TTS)涵盖范围更广,包括 TTS、歌唱合成等领域,但多数情况下可混用。提供了一些端到端语音合成模型的样例,可感受目前语音合成的发展。 人类通过一整套发音器官合成语音,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出以源滤波器(sourcefilter)模型为代表的多种模型建模该过程,语音中有清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。 当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端把输入文本转换为层次化的语音学表征,主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征(linguistics feature)生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征(如梅尔频谱),直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。
2025-01-07
基于TTS+LLM流式数字人的问答系统
以下是关于基于 TTS + LLM 流式数字人的问答系统的相关信息: 数字人简介: 算法驱动的数字人强调自驱动,人为干预更少,技术实现更复杂。其最简单的大致流程包含三个核心算法: 1. ASR(Automatic Speech Recognition,语音识别):旨在将用户的音频数据转化为文字,便于数字人理解和生成回应,以实现像人与人一样的对话交互。 2. AI Agent(人工智能体):充当数字人的大脑,可直接接入大语言模型,强调 Agent 的概念是为了让数字人拥有记忆模块等,使其更加真实。 3. TTS(Text to Speech,文字转语音):由于数字人依靠 LLM 生成的输出是文字,为保持语音交互一致性,需要将文字转换为语音由数字人输出。
2024-11-25