vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

内容分享2个月前发布

0 5 0

小伙伴们！今天可不得了啊，阿里发布了全新的全模态大模型——“Qwen2.5-Omni-7B”。它能做各种各样的事情，不管是文字处理，图像生成还是语音交互，都能轻松搞定。

这标志着人工智能又向前迈进了一大步啊，以7B小尺寸实现端到端全模态交互能力，简直是AI界的“六边形战士”！

Qwen2.5-Omni是什么？

Qwen2.5-Omni是全球首个端到端开源全模态大模型，支持文本、图像、音频、视频的实时输入与输出，实现“看听说写”一体化交互。其核心能力包括：

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

多模态输入：无缝处理视频通话、语音指令、图文混合输入，例如直接分析视频内容并生成语音反馈。

实时流式响应：支持“边听边说”，延迟低至毫秒级，体验接近真人对话。

类人认知与决策：通过音视频识别情绪，在复杂任务中生成更智能的反馈（如根据视频内容解答数学题）。

划重点：传统多模态方案需串联ASR（语音识别）、TTS（语音合成）等独立模型，而Qwen2.5-Omni通过统一架构直接原生处理多模态数据，效率提升显著。

二、如何快速部署？

开发者三步上手：

下载渠道：开源平台：Hugging Face、魔搭社区（ModelScope）、GitHub同步开源。

本地部署：手机端：7B小参数适配移动设备，手机等终端智能硬件也可轻松部署运行。另外，用户也可在Qwen Chat上直接体验。

云端体验：Qwen Chat：直接在线语音/视频聊天（体验地址：https://chat.qwen.ai）。

三、技术优势解析

Qwen2.5-Omni的三大杀手锏：

Thinker-Talker双核架构：

Thinker（大脑）：整合多模态信息，生成高级语义表征（如解析视频中的画面、对话、背景音乐）。
Talker（发声器）：流式生成语音token，实现“边思考边说话”。

TMRoPE位置编码：
创新性地将视频与音频时间戳对齐，解决多模态时序同步难题，提升音画一致性。
性能碾压闭源模型：多模态基准测试：OmniBench、MMMU、MVBench等任务超越Google Gemini-1.5-Pro。
语音生成：主观评测分数4.51（满分5分），接近人类水平。

四、体验与未来展望

目前，Qwen2.5-Omni已在教育、客服、智能硬件等领域展现潜力。例如：

实时翻译会议视频：直接输出多语言语音摘要。
盲人辅助工具：通过语音描述实时解析环境画面。

立即体验：

在线Demo：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
开源代码：https://github.com/QwenLM/Qwen2.5-Omni

行业评价：“这才是真正的Open AI！”。阿里通过开源全模态技术，或将推动AI应用进入“类人交互”新时代！

Qwen Chat免费体验：

https://chat.qwenlm.ai

百炼平台模型调用：

https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

Demo体验：

https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

开源地址：

https://huggingface.co/Qwen/Qwen2.5-Omni-7B

https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

https://github.com/QwenLM/Qwen2.5-Omni

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

官方介绍介绍

Qwen2.5-Omni 是一个端到端的多模态模型，旨在感知各种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

主要特点

Omni 和 Novel Architecture：提出了 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在感知不同的模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。我们提出了一种名为 TMRoPE （Time-aligned Multimodal RoPE）的新型位置嵌入，以将视频输入的时间戳与音频同步。
实时语音和视频聊天：架构专为完全实时交互而设计，支持分块输入和即时输出。
自不过稳健的语音生成：超越许多现有的流媒体和非流媒体替代方案，在语音生成方面表现出卓越的稳健性和自然性。
跨模态的强劲性能：与类似大小的单模态模型进行基准测试时，在所有模态中都表现出卓越的性能。Qwen2.5-Omni 在音频功能方面优于类似尺寸的 Qwen2-Audio，并实现了与 Qwen2.5-VL-7B 相当的性能。
出色的端到端语音教学如下： Qwen2.5-Omni 在端到端语音教学跟踪方面的性能可与文本输入的有效性相媲美，MMLU 和 GSM8K 等基准测试证明了这一点。

模型架构

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

性能

Qwen2.5-Omni 与类似大小的单模态模型和闭源模型（如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro）相比，它在所有模态中都表现出强劲的性能。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval 和 Subjective naturalness）等领域表现出色。

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

使用 vLLM 进行部署

提议使用 vLLM 进行快速 Qwen2.5-Omni 部署和推理。您需要从github下载源代码进行安装，以获得对 Qwen2.5-Omni 的 vLLM 支持，或使用的官方 docker 镜像。还可以查看 vLLM 官方文档，了解有关在线服务和离线推理的更多详细信息。

安装

pip install git+https://github.com/huggingface/transformers@1d04f0d44251be5e236484f8c8a00e1c7aa69022
pip install accelerate
pip install qwen-omni-utils
git clone -b qwen2_omni_public_v1 https://github.com/fyabc/vllm.git
cd vllm
pip install .

本地推理

你可以使用 vLLM 在本地推理 Qwen2.5-Omni，目前只支持 vllm 中的 thinker 部分，因此 model 的输出只能是文本。我们将在不久的将来支持模型的其他部分实现音频输出。

import os
import torch

from transformers import Qwen2_5OmniProcessor
from vllm import LLM, SamplingParams
from qwen_omni_utils import process_mm_info

# vLLM engine v1 not supported yet
os.environ['VLLM_USE_V1'] = '0'

MODEL_PATH = "Qwen/Qwen2.5-Omni-7B"

llm = LLM(
    model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.9,
    tensor_parallel_size=torch.cuda.device_count(),
    limit_mm_per_prompt={'image': 1, 'video': 1, 'audio': 1},
    seed=1234,
)

sampling_params = SamplingParams(
    temperature=1e-6,
    max_tokens=512,
)

processor = Qwen2_5OmniProcessor.from_pretrained(MODEL_PATH)

messages = [
    {
        "role": "system",
        "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.",
    },
    {
        "role": "user",
        "content": [
            {"type": "video", "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4"},
        ],
    },
]

text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

audios, images, videos = process_mm_info(messages, use_audio_in_video=True)

inputs = {
    'prompt': text[0],
    'multi_modal_data': {},
    "mm_processor_kwargs": {
        "use_audio_in_video": True,
    },
}


if images is not None:
    inputs['multi_modal_data']['image'] = images
if videos is not None:
    inputs['multi_modal_data']['video'] = videos
if audios is not None:
    inputs['multi_modal_data']['audio'] = audios

outputs = llm.generate(inputs, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

官方还在 vLLM 存储库中提供了一些示例：

# vLLM engine v1 not supported yet
export VLLM_USE_V1=0

cd vllm

python examples/offline_inference/audio_language.py --model-type qwen2_5_omni
python examples/offline_inference/vision_language.py --modality image --model-type qwen2_5_omni
python examples/offline_inference/vision_language.py --modality video --model-type qwen2_5_omni

码头工人

为了简化部署过程，官方提供了带有预构建环境的 docker 镜像：qwenllm/qwen-omni。您只需安装驱动并下载模型文件即可启动 Demo。

docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash

您还可以通过以下方式启动 Web 演示：

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B

要启用 FlashAttention-2，请使用以下命令：

bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2

内容分享

文章版权归作者所有，未经允许请勿转载。

HumanEyes出品：Vuze 360相机开放预订

内容分享

3个月前

010

Zabbix+500元硬件平替5万元动环检测系统实现UPS温湿度烟雾等

内容分享

2周前

320

10 个必会的 PyCharm 技巧

内容分享

2个月前

1510

数据服务与联邦学习：隐私保护数据共享

内容分享

2个月前

010

5 条评论

您必须登录才能参与评论！

立即登录

长风飘雪读者

4090显卡，跑了下，巨慢无比，而且还开了flashattention，同样是7b，qwen2.5-audio比他快多了

2个月前无记录

登录以回复
烟手不抽烟读者

可以识别声音里面的特征吗，比如特定的噪声

2个月前无记录

登录以回复
爱丽丝RUN 投稿者

只用cpu可以跑吗？

2个月前无记录

登录以回复
一见倾心读者

手机到底怎么部署？不能光吹不练啊！

2个月前无记录

登录以回复
新国旅赵昱玮读者

收藏了，感谢分享

2个月前无记录

登录以回复

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

Qwen2.5-Omni是什么？

二、如何快速部署？

三、技术优势解析

四、体验与未来展望

官方介绍介绍

主要特点

模型架构

性能

使用 vLLM 进行部署

安装

本地推理

码头工人

Python读取与写入Excel模块：openpyxl

MySQL 8.0参考手册 - Limit 查询优化

相关文章

HumanEyes出品：Vuze 360相机开放预订

Zabbix+500元硬件平替5万元动环检测系统实现UPS温湿度烟雾等

10 个必会的 PyCharm 技巧

数据服务与联邦学习：隐私保护数据共享

5 条评论

热门网站

淘声网

热门文章

sana所有动漫网盘资源链接汇总-地下偶像/哥布林的洞窟/白色巨猿/彩虹小筑/不良少年冰上的尤里小红帽sana所有动漫网盘资源链接-红果短剧

《风流女管家》法国犯罪悬疑片–《风流女管家》法语高清全集免费在线无广告完整观看—《风流女管家》HD正版免费播放-手机电脑皆可看

《loveme捉迷藏》免费观看全集高清版_《loveme捉迷藏》第一季免费播放_《loveme捉迷藏》动漫在线观看第一季_《loveme捉迷藏》动漫在线观看免费西瓜视频

MonitorDLL 小白入门指南

渗排水与盲沟排水的区别

怎么在linux上运行python

vLLM 部署Qwen2.5-Omni-7B全模态大模型才是AI“交互”新时代

Qwen2.5-Omni是什么？

二、如何快速部署？

三、技术优势解析

四、体验与未来展望

官方介绍介绍

主要特点

模型架构

性能

使用 vLLM 进行部署

安装

本地推理

码头工人

Python读取与写入Excel模块：openpyxl

MySQL 8.0参考手册 - Limit 查询优化

相关文章

热门网站

淘声网

热门文章

标签云