VIT 模型是视觉变压器(Vision Transformer)模型。
在计算机视觉领域,在深度学习革命之前,传统图像生成技术依赖手工制作特征,能力有限。生成对抗网络、变分自编码器等的引入是重要转折点,后续如流模型、扩散模型等进一步提高了图像生成质量。过去十年,生成式计算机视觉模型发展多样,在自然语言处理中成功应用的变压器架构被引入计算机视觉,如视觉变压器(ViT)和 Swin 变压器。
Zhai 等人展示了有足够训练数据的 ViT 模型的性能计算前沿大致遵循(饱和)幂律。谷歌研究提出了高效稳定训练 22B 参数 ViT 的方法,使用冻结模型产生嵌入,然后在顶部训练薄层可实现出色性能。
在语音合成方面,VITS(Variational Inference with adversarial learning for endtoend TexttoSpeech)是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。与 Tacotron 和 FastSpeech 不同,VITS 直接将字符或音素映射为波形,不需要额外声码器重建波形,是真正的端到端语音合成模型。它通过隐变量而非之前的频谱串联语音合成中的声学模型和声码器,利用随机时长预测器提高合成语音的多样性,输入同样文本能合成不同声调和韵律的语音,合成音质较高,还可借鉴 FastSpeech 单独对音高等特征建模以提升质量,是非常有潜力的语音合成模型。
2024-12-09