阿里云研发大规模音频语言模型Qwen-Audio

57次阅读

Qwen-Audio（Qwen Large Audio Language Model）是阿里云提出的大模型系列Qwen（简称统一前文）的多模态版本。Qwen-Audio 接受多种音频（人类语音、自然声音、音乐和歌曲）和文本作为输入，输出文本。Qwen-Audio 的贡献包括：

基础音频模型：Qwen-Audio是一个基础的多任务音频语言模型，支持各种任务、语言和音频类型，作为通用的音频理解模型。在Qwen-Audio的基础上，我们通过指令微调开发了Qwen-Audio-Chat，可实现多轮对话并支持多样化的音频场景。
适用于所有类型音频的多任务学习框架：为了扩大音频语言预训练的规模，我们通过提出一种多任务训练框架来解决与不同数据集相关的文本标签变化的挑战，从而实现知识共享并避免单向学习多方干扰。我们的模型包含 30 多个任务，大量实验表明该模型具有强大的性能。
性能强劲：实验结果表明，Qwen-Audio 在各种基准测试任务中都取得了令人印象深刻的性能，无需任何特定于任务的微调，超越了同类产品。具体来说，Qwen-Audio 在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得了最先进的结果。
通过音频和文本输入进行灵活的多运行聊天：Qwen-Audio 支持多音频分析、声音理解和推理、音乐欣赏以及语音编辑工具的使用。

我们即将发布 Qwen-Audio 系列的两款型号：

Qwen-Audio：预训练的多任务音频理解模型，使用Qwen-7B作为LLM的初始化，使用Whisper-large-v2作为音频编码器的初始化。
Qwen-Audio-Chat：基于 LLM 的多模式 AI 助手，采用对齐技术进行训练。Qwen-Audio-Chat支持更灵活的交互，例如多音频输入、多轮问答、创意能力。