Whisper 是一种自动语音识别（ASR）系统

61次阅读

Whisper 是一种自动语音识别（ASR）系统，根据从网络收集的 680，000 小时的多语言和多任务监督数据进行训练。我们表明，使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它可以转录多种语言，以及从这些语言翻译成英语。我们正在开源模型和推理代码，作为构建有用应用程序和进一步研究健壮语音处理的基础。

Whisper架构是一种简单的端到端方法，作为编码器-解码器变压器实现。输入音频被分成 30 秒的块，转换为 log-Mel 频谱图，然后传递到编码器中。训练解码器来预测相应的文本标题，并与指示单个模型执行语言识别、短语级时间戳、多语言语音听录和英语语音翻译等任务的特殊标记混合在一起。

其他现有方法经常使用更小、更紧密配对的音频-文本训练数据集，¹ ^2,³或使用广泛但无监督的音频预训练。^4,^5,⁶由于Whisper是在庞大而多样化的数据集上进行训练的，并且没有针对任何特定数据集进行微调，因此它无法击败专门研究LibriSpeech性能的模型，LibriSpeech性能是语音识别领域著名的竞争基准。然而，当我们在许多不同的数据集中测量Whisper的零镜头性能时，我们发现它比这些模型更强大，误差少50%。