对 TTS 合成效果的评价主要分为主观评价和客观评价。
主观评价是通过人类对语音进行打分,常见的方法包括平均意见得分(MOS)、众包平均意见得分(CMOS)和 ABX 测试。其中 MOS 评测较为宽泛,可测试语音的不同方面,如自然度 MOS 和相似度 MOS。国际电信联盟将 MOS 评测规范化为 ITUT P.800,其中绝对等级评分(ACR)应用广泛,其根据音频级别给出 1 至 5 分的评价标准,分数越大表示语音质量越好,MOS 大于 4 时音质较好,低于 3 则有较大缺陷。但人类评分结果易受干扰,如音频样本呈现形式、有无上下文等。
客观评价是通过计算机自动给出语音音质的评估,在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估,有参考评估方法需要音质优异的参考信号,常见的有 ITUT P.861(MNB)、ITUT P.862(PESQ)、ITUT P.863(POLQA)、STOI 和 BSSEval 等;无参考评估方法不需要参考信号,常见的包括基于信号的 ITUT P.563 和 ANIQUE+、基于参数的 ITUT G.107(EModel),近年来深度学习也应用到无参考质量评估中,如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。
获取平均意见得分时,实验要求获取多样化且数量足够大的音频样本,在具有特定声学特性的设备上进行测评,控制被试遵循同样标准,确保实验环境一致。实验方法有实验室方式和众包两种,实验室方式能稳定保证实验环境,但人力成本高;众包方式易于获得有效评估结果,但无法确保试听条件。
2024-11-20