直达「通往AGI之路」飞书知识库 →

首页/问答列表/问答详情

TT语音是什么

回答

TT 语音是一款中国（大陆）地区常见的语音通讯软件，以语音通话、互动直播、相亲交友、游戏开黑为主要功能。它支持多种游戏的语音开黑，如王者荣耀、和平精英、穿越火线等，用户可以在游戏中与好友进行语音交流，提高游戏体验。此外，TT 语音还提供了互动直播功能，用户可以观看直播、与主播互动、赠送礼物等。相亲交友功能则为用户提供了一个认识新朋友的平台，用户可以通过语音聊天、视频聊天等方式与其他用户进行交流。（以上答案可能无法准确回答问题，建议在引用内容里进一步确认）

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

问：推荐一下在线 TTS 工具

邬嘉文：GPT具身对话机器人

邬嘉文：GPT具身对话机器人

XiaoHu.AI日报

智谱·AI 开源模型列表

其他人在问

语音合成（Text to Speech，TTS）是指将文本通过一系列的信号处理转换成“人造”语音。技术原理：传统的语音合成技术一般会经过以下三个步骤： 1. 文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。 2. 声学处理：通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后依次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。参考资料：出门问问的语音合成（TTS）API： 1. 接口描述：接口请求域名：https://open.mobvoi.com/api/tts/v1 接口请求频率限制：5 次/秒应用场景：在视频 APP 中作为配音解说；小说 App 完成有声阅读，移动 App 语音播报新闻；智能设备语音提醒；车载导航语音合成的个性化语音播报等。提供多种方言和风格：包括普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格，满足客户在不同场景的选择需求。实时合成支持 SSML，语法详见 SSML 标记语言。 2. 请求参数： HTTP Method：支持 POST 请求调用参数及说明：字段名：text，必填，类型为 String，要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。字段名：appkey，必填，类型为 String，开发者在 AI 开放平台上申请的 appkey。字段名：signature，必填，类型为 String，签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名，签名有效期为 10 分钟。字段名：timestamp，必填，类型为 Long，当前时间戳，单位为秒。字段名：speaker，否，类型为 String，合成音频指定发音人，默认值：cissy_meet，其他发音人传值及计费价格请参考声音商店。字段名：audio_type，否，类型为 String，合成音频的格式，默认值：mp3，可选值：pcm/mp3/speexwb10/wav，只支持这四种格式中的一种。字段名：speed，否，类型为 Float，发音人合成的语速，支持小数点后两位，默认值：1.0，可选值：0.5 2.0。 Request Header 设置

有没有一键生成流程图的AI。参考[一招搞定：用AI秒生成专业流程图](https://mp.weixin.qq.com/s/cSLHwMFQhfU-VjSvRDJhzw)

目前有一些可以一键生成流程图的 AI 工具，例如： Lucidchart：注册并登录：选择模板：在模板库中搜索“项目管理流程图”。编辑图表：根据项目需求添加和编辑图形和流程步骤。优化布局：利用 AI 自动布局功能，优化图表的外观。保存和分享：保存图表并与团队成员分享，或导出为 PDF、PNG 等格式。利用这些 AI 工具，可以快速、高效地创建专业的流程图，满足各种工作和项目需求。但需要注意的是，内容由 AI 大模型生成，请仔细甄别。

适合客户端使用的 tts 模型有什么

以下是一些适合客户端使用的 TTS 模型： 1. Fish Speech：语音处理接近人类水平，约十五万小时三语数据，对中文支持完美。开发者为 fishaudio，具有亿级参数，高效轻量，可在个人设备上运行和微调，适合作为私人语音助手。详细介绍及更多演示：https://xiaohu.ai/p/10779 ，GitHub：https://github.com/fishaudio/fishspeech 。 2. GPTSoVITS：只需 1 分钟语音即可训练一个自己的 TTS 模型，是一个声音克隆和文本到语音转换的开源 Python RAG 框架。5 秒数据就能模仿，1 分钟的声音数据就能训练出高质量的 TTS 模型，完美克隆声音。支持零样本 TTS、少量样本训练、跨语言支持、易于使用的界面等。GitHub：。

SparkTTS 是基于 Qwen2.5 的高效文本转语音（TTS）系统，具有以下特点： 1. 超越现有 TTS，结合 Qwen2.5 进行端到端生成。 2. 支持细粒度语音控制，包括性别、音调、语速等自定义参数。 3. 具备零样本语音克隆功能，无需目标声音样本，即可生成个性化高质量声音。 4. 采用 BiCodec 编码架构，简化流程，提高推理效率。 5. 与 Qwen2.5 LLM 集成，可直接通过 LLM 处理 TTS 任务，无需额外声学模型。

语音合成（Text to Speech，TTS）是指将文本通过一系列的信号处理转换成“人造”语音。技术原理： 1. 文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。 2. 声学处理：通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后依次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。参考资料：出门问问的语音合成（TTS）API：接口请求域名：https://open.mobvoi.com/api/tts/v1 接口请求频率限制：5 次/秒应用场景：在视频 APP 中作为配音解说；小说 App 完成有声阅读，移动 App 语音播报新闻；智能设备语音提醒；车载导航语音合成的个性化语音播报等。提供多种方言和风格：包括普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格，满足客户在不同场景的选择需求。实时合成支持 SSML，语法详见 SSML 标记语言。请求参数： HTTP Method：支持 POST 请求调用参数及说明：字段名：text，必填，类型为 String，要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。字段名：appkey，必填，类型为 String，开发者在 AI 开放平台上申请的 appkey。字段名：signature，必填，类型为 String，签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名，签名有效期为 10 分钟。字段名：timestamp，必填，类型为 Long，当前时间戳，单位为秒。字段名：speaker，否，类型为 String，合成音频指定发音人，默认值：cissy_meet，其他发音人传值及计费价格请参考声音商店。字段名：audio_type，否，类型为 String，合成音频的格式，默认值：mp3，可选值：pcm/mp3/speexwb10/wav，只支持这四种格式中的一种。字段名：speed，否，类型为 Float，发音人合成的语速，支持小数点后两位，默认值：1.0，可选值：0.5 2.0。 Request Header 设置

https://www.xingliu.art 这个网站，星流是什么ai，属于哪个旗下

很抱歉，目前没有关于“https://www.xingliu.art”这个网站以及“星流”AI 的相关确切信息，无法确定其所属。

coze 语音克隆

以下是关于语音克隆的相关信息：有一款适合小白用户的开源数字人工具，具有以下特点和功能：特点：一键安装包，无需配置环境，简单易用。功能：生成数字人视频，支持语音合成和声音克隆，操作界面中英文可选。系统兼容：支持 Windows、Linux、macOS。模型支持：MuseTalk（文本到语音）、CosyVoice（语音克隆）。使用步骤：下载 8G + 3G 语音模型包，启动模型即可。 GitHub 链接：官网链接：另外，CosyVoice 声音克隆仅需几秒音频样本，无需额外训练数据，可控制情绪情感、语速、音高。详细内容：https://xiaohu.ai/p/10954 项目地址：https://funaudiollm.github.io 在线演示：https://modelscope.cn/studios/iic/CosyVoice300M

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用步骤：特点： 1. 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。 3. 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。 4. 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。 6. 提供预训练模型：项目提供了一些已经训练好的模型，可直接下载使用。使用步骤： 1. 前置数据获取处理：选择音频，开启切割。有噪音时，进行降噪处理。降噪处理完成，开启离线 ASR。 2. GPTSowitsTTS：训练集格式化：开启一键三连，耐心等待。微调训练：开启 SoVITS 训练和 GPT 训练。推理：开始推理刷新模型选择微调后的模型 yoyo。 3. 声音复刻：开启声音复刻之旅，可实现跨多语种语言的声音。相关资源： GitHub：https://github.com/RVCBoss/GPTSoVITS 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备：点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ，新建笔记本，运行脚本启动 GPTSo VITS，整个过程比较漫长，需要耐心等待，可以整个脚本一起运行，也可以一段一段运行；运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI，运行成功后出现 public URL。实践样本： AIyoyo 普通话满江红 AIyoyo 粤语版满江红

文字转语音

以下是关于文字转语音的相关内容： DubbingX2.0.3：界面与国内版相同，使用了沉浸式翻译功能，可能看起来较乱。第一个选项是文字转语音，与国内版相同，不做重复演示。重点介绍第二项“创建您的语音克隆”：上传语音（想克隆的声音原始文件）。给声音命名，方便以后配音选择。选择语言。勾选相关选项，点击转变即可生成。注意：原音频若有背景音乐，最好在剪影中去除，以使生成的音色模型效果更好、更纯净。 Hedra：可以直接文字转语音，目前有 6 个语音。也可以直接上传音频。

语音转文字

以下是关于语音转文字的相关信息：推荐使用 OpenAI 的 wishper 进行语音转文字，相关链接：https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频，相关链接：https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行，后端支持 TPU v48，与 A100 GPU 上的 PyTorch 相比，快 70 多倍，是目前最快的 Whisper API 。语音转文本（Speech to text）：介绍：语音转文本 API 提供转录和翻译两个端点，基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言，将音频翻译并转录成英语。目前文件上传限制为 25MB，支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。快速入门：转录：转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿，默认响应类型为包含原始文本的 JSON，可添加更多带有相关选项的form 行设置其他参数。翻译：翻译 API 输入任何支持语言的音频文件，必要时转录成英语，目前仅支持英语翻译。更长输入：默认 Whisper API 仅支持小于 25MB 的文件，若音频文件更长，需分成小于 25MB 的块或使用压缩后格式，可使用 PyDub 开源 Python 软件包拆分声频文件，但 OpenAI 对其可用性或安全性不作保证。提示：可使用提示提高 Whisper API 生成的转录质量，如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。

实时翻译视频语音

以下是为您整理的相关信息：实时翻译视频语音的工具： StreamSpeech：这是一个实时语言翻译模型，能够实现流媒体语音输入的实时翻译，输出目标语音和文本，具有同步翻译、低延迟的特点，还能展示实时语音识别结果。给视频配音效的 AI 工具：支持 50 多种语言的配音，音质自然流畅，提供实时配音功能，适用于直播和演讲，能将语音转录为文本，方便后期字幕制作和编辑。 Vidnoz AI：支持 23 多种语言的配音，音质高保真，支持文本转语音和语音克隆功能，提供语音参数自定义和背景音乐添加工具，提供面向个人和企业的经济实惠的定价方案。在选择视频配音工具时，请考虑支持的语言数量、语音质量、自定义选项和价格等因素。

文本转语音

以下是关于文本转语音的相关信息：在线 TTS 工具推荐： Eleven Labs：https://elevenlabs.io/ ，是一款功能强大且多功能的 AI 语音软件，能高保真地呈现人类语调和语调变化，并能根据上下文调整表达方式。 Speechify：https://speechify.com/ ，是一款人工智能驱动的文本转语音工具，可作为多种平台的应用使用，用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio：https://speech.microsoft.com/portal ，提供了支持 100 多种语言和方言的语音转文本和文本转语音功能，还提供了自定义的语音模型。 Voicemaker：https://voicemaker.in/ ，可将文本转换为各种区域语言的语音，并允许创建自定义语音模型，易于使用，适合为视频制作画外音或帮助视障人士。语音合成技术原理：传统的语音合成技术一般会经过以下三个步骤： 1. 文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。 2. 声学处理：通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后一次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。 OpenAI 新一代音频模型： OpenAI 于 2025 年 3 月 20 日推出了全新的音频模型，包括改进的语音转文本和文本转语音功能。语音转文本模型在单词错误率和语言识别准确性方面相较于原有的 Whisper 模型有显著提升，能更好地捕捉语音细节，减少误识别，在多语言评估基准上表现优异。文本转语音模型具备更高的可定制性，支持个性化语音风格，目前支持人工预设的语音样式，并通过监控确保语音与合成预设一致。测试地址：https://www.openai.fm/ 直播回放：https://www.youtube.com/watch?v=lXb0L16ISAc 说明文档：https://openai.com/index/introducingournextgenerationaudiomodels/ 内容由 AI 大模型生成，请仔细甄别。