以下是一些常见的 ASR 方案:
算法驱动的数字人方案中,ASR(Automatic Speech Recognition,语音识别)是核心算法之一,能将用户的音频数据转化为文字,便于数字人理解和生成回应。
开源 ASR 数据方面:
多语种:
mozilla common voice:提供各种语言的音频,目前 14122 小时 87 种语言,链接:
OpenSLR:提供各种语言的合成、识别等语料,链接:
CIAVSR:cantonese 粤语车内 audiovisual 数据,8.3 小时,链接:
open speech corpora:各类数据搜集,链接:
Hindi:1111 小时,链接:
Samrómur Queries 21.12:Samrómur Icelandic Speech corpus 20 小时,链接:
Samrómur Children 21.09:Icelandic Speech from children,链接:
Golos:1240 小时 Russian,链接:
MediaSpeech:10 小时 French,Arabic,Turkish and Spanish media speech,链接:
中文:
mozilla common voice:提供各种语言的音频,目前 14122 小时 87 种语言,链接:
OpenSLR:提供各种语言的合成、识别等语料,链接:
open speech corpora:各类数据搜集,链接:
AiShell4:211 场会议,120 小时,多通道中文会议语音数据库,链接:
AliMeeting:118.75 小时会议数据,链接:
Free ST Chinese Mandarin Corpus:855 发音人 102600 句手机录制,链接:
aidatatang_200zh:200 小时 600 发音人文本准确 98%,链接:
magicData:755 小时中文 1080spks,安静室内环境,16k
magicDataRAMC:180 小时中文 spontaneous conversation MAGICDATA Mandarin Chinese Conversational Speech Corpus,链接:
TAL_CSASR:中英混合 587 小时,链接:
TAL_ASR:100 小时讲课,链接:
英文:
GigaSpeech:10000 小时,强烈推荐,链接:
2024-12-03