语音识别的抗噪技术方面,目前有一些相关的进展。例如,有模型实现了更小的模型大小,同时具备接近 Whisper 的词错误率,拥有强大的抗噪声能力和减少幻听的效果。
语音识别的技术原理包括:
更小模型大小,接近Whisper的词错误率。强大抗噪声能力和减少幻听。?[https://x.com/xiaohuggg/status/1725016340745073136?s=20](https://x.com/xiaohuggg/status/1725016340745073136?s=20)7⃣️ ? NVIDIA介绍RAG技术:NVIDIA发布关于RAG(检索增强生成)技术的文章。RAG技术通过外部信息提升AI模型准确性和可靠性。NVIDIA为RAG开发了参考架构,简化技术集成。?[https://x.com/xiaohuggg/status/1724995873309090071?s=20](https://x.com/xiaohuggg/status/1724995873309090071?s=20)8⃣️ ? LLaMA-Factory:简化大语言模型微调:提供易用的Web界面,直接进行模型训练、评估和推理。预集成多种大型语言模型,如LLaMA、BLOOM等。
更小模型大小,接近Whisper的词错误率。强大抗噪声能力和减少幻听。?[https://x.com/xiaohuggg/status/1725016340745073136?s=20](https://x.com/xiaohuggg/status/1725016340745073136?s=20)7⃣️ ? NVIDIA介绍RAG技术:NVIDIA发布关于RAG(检索增强生成)技术的文章。RAG技术通过外部信息提升AI模型准确性和可靠性。NVIDIA为RAG开发了参考架构,简化技术集成。?[https://x.com/xiaohuggg/status/1724995873309090071?s=20](https://x.com/xiaohuggg/status/1724995873309090071?s=20)8⃣️ ? LLaMA-Factory:简化大语言模型微调:提供易用的Web界面,直接进行模型训练、评估和推理。预集成多种大型语言模型,如LLaMA、BLOOM等。
1.输入:语音识别输入的是声音,声音是一种波,是计算机无法直接处理的模拟信号。2.编码:将模拟信号转变成数字信号,并提取其中的特征进行处理。3.声音分帧,通过移动窗函数把声音切开成一小段一小段,每一小段为一帧。帧与帧之间一般是有交叠的。4.特征向量,通过使用某种规则(如依照人耳听声特点提出的MFCC规则),将每一帧波形变成一个多维向量。5.解码6.把帧识别成状态。7.把状态组合成音素。8.把音素组合成单词。9.输出