语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换成“人造”语音。
技术原理:
传统的语音合成技术一般会经过以下三个步骤:
1. 文本与韵律分析:先将文本分词,标明每个字的发音以及重音、停顿等韵律信息,然后提取文本的特征,生成特征向量。
2. 声学处理:通过声学模型将文本特征向量映射到声学特征向量。
3. 声音合成:使用声码器将声学特征向量通过反变换生成声音波形,然后依次拼接得到整个文本的合成语音。在反变换过程中,可以调整参数,从而改变合成语音的音色、语调、语速等。
参考资料:
出门问问的语音合成(TTS)API:
1. 接口描述:
接口请求域名:https://open.mobvoi.com/api/tts/v1
接口请求频率限制:5 次/秒
应用场景:在视频 APP 中作为配音解说;小说 App 完成有声阅读,移动 App 语音播报新闻;智能设备语音提醒;车载导航语音合成的个性化语音播报等。
提供多种方言和风格:普通话、台湾腔、粤语、四川话、东北话等多种方言,数百个发音人,上千种风格,满足客户在不同场景的选择需求。实时合成支持 SSML,语法详见 SSML 标记语言。
2. 请求参数:
HTTP Method:支持 POST 请求
调用参数及说明:
字段名:text,必填,类型为 String,要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。
字段名:appkey,必填,类型为 String,开发者在 AI 开放平台上申请的 appkey。
字段名:signature,必填,类型为 String,签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名,签名有效期为 10 分钟。
字段名:timestamp,必填,类型为 Long,当前时间戳,单位为秒。
字段名:speaker,否,类型为 String,合成音频指定发音人,默认值:cissy_meet,其他发音人传值及计费价格请参考声音商店。
字段名:audio_type,否,类型为 String,合成音频的格式,默认值:mp3,可选值:pcm/mp3/speexwb10/wav,只支持这四种格式中的一种。
字段名:speed,否,类型为 Float,发音人合成的语速,支持小数点后两位,默认值:1.0,可选值:0.5 2.0。
Request Header 设置
2025-01-13