Baichuan-Omni-1.5 是从 Baichuan-omni 升级的最新的、端到端训练的、支持全模态输入/双模态输出的多模态大模型。该模型使用Qwen2.5-7B作为大语言模型基座,可以端到端方式,接受图像、视频、文本、音频作为输入,并且以可控的方式生成高质量文本和语音。
-
Baichuan-Omni-1.5-Base: 为促进全模态大模型发展,我们开源了使用高质量海量数据训练的全模态基座模型。该模型未经SFT指令微调,可塑性强,是目前性能最好的全模态基座模型。
-
Baichuan-Omni-1.5: 基于性能强悍的Baichuan-Omni-1.5-base,使用高质量的全模态对齐数据,进行端到端的多模态指令数据训练。Baichuan-Omni-1.5的纯文本、图像、视频、音频理解能力达到了 GPT-4o-mini 级别。
Baichuan-Omni-1.5 是 Baichuan-omni 系列的最新、性能一流模型。该模型通过端到端方式训练和推理。与其他开源模型相比,Baichuan-Omni-1.5 在文本、图像、音频和视频输入的理解能力有显著提升,并支持了可控的实时语音对话和多模态实时交互的新功能。此外,Baichuan-Omni-1.5 也是目前最出色的开源医疗多模态模型。Baichuan-Omni-1.5 的主要特性包括:
-
多模态理解和交互能力: Baichuan-Omni-1.5 接受图像、视频、文本、音频作为输入,并生成高质量文本和语音输出,能够在不损害任何模态能力的情况下实现无缝的高质量跨模态交互,并和用户进行实时语音对话。在针对全模态理解的综合评测基准 OminiBench 中,Baichuan-Omni-1.5 取得开源社区一流水平,并超过了 GPT-4o-mini。
-
优秀的视觉能力: Baichuan-Omni-1.5 在 OpenCompass 常用的十个视觉评测集上平均得分 73.3,在7B量级的大小下,在图像理解方面超越了 GPT-4o-mini,比GPT-4o-mini平均高出6分,并且和GPT-4o的结果相近。此外,视频理解表现也优于GPT-4V。
-
出色的语音能力: Baichuan-Omni-1.5 通过一个 8 层 RVQ 音频Tokenizer(Baichuan-Audio-Tokenizer),在 12.5 Hz 帧率下实现了语义和声学信息捕获的最佳平衡,支持高质量可控制声音的中英双语实时对话。Baichuan-Omni-1.5 在语音理解任务优于 GLM-4-Voice,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。同时,我们还开源了音频理解和生成基准(OpenAudio-Bench),以评估音频的端到端能力。
-
领先的医疗图像理解能力: 我们从开源数据集中收集了一个比较全面的医学理解基准(OpenMM-Medical)用于评估模型的医学能力。Baichuan-Omni-1.5 在 GMAI-MMBench 以及 OpenMM-Medical 上取得了最佳的表现。在 OpenMM-Medical 上,Baichuan-Omni-1.5 仅使用 7B 的 LLM 取得了 83.8% 的高分,超过 Qwen2-VL-72B 的 80.7%。
点击查看纯文本理解能力详细评测结果。
Comprehensive Tasks | ||||||
---|---|---|---|---|---|---|
Model | Size | MMLU (Acc.) |
CMMLU (Acc.) |
AGIEval (Acc.) |
C-Eval (Acc.) |
GAOKAO (Acc.) |
Proprietary Models | ||||||
GPT 4o | - | 88.0♢ |
78.3♢ |
62.3♢ |
86.0♢ |
- |
GPT 4o mini | - | 82.0 | 67.6 | 52.2 | 63.6 | 70.8 |
Open-source Models (Pure text) | ||||||
MAP-Neo | 7B | 58.2 | 55.1 | 33.9 | 57.5 | - |
Qwen1.5-Chat | 7B | 61.5 | 68.0 | 39.3 | 68.8 | - |
Llama3-Instruct | 8B | 67.1 | 51.7 | 38.4 | 50.7 | - |
OLMo | 7B | 28.4 | 25.6 | 19.9 | 27.3 | - |
Open-source Models (Omni-modal) | ||||||
VITA | 8x7B | 71.0* | 46.6 | 46.2* | 56.7* | - |
VITA-1.5 | 7B | 71.0 | 75.1 | 47.9 | 65.6 | 57.4 |
Baichuan-Omni | 7B | 65.3 | 72.2 | 47.7 | 68.9 | - |
MiniCPM-o 2.6 | 7B | 65.3 | 63.3 | 50.9 | 61.5 | 56.3 |
Baichuan-Omni-1.5 |
7B | 72.2 | 75.5 | 54.4 | 73.1 | 73.5 |
点击查看图像理解能力详细评测结果。
Multi-choice & Yes-or-No Question | ||||||||
---|---|---|---|---|---|---|---|---|
Model | Size | MMBench-EN (Acc.) |
MMbench-CN (Acc.) |
SEED-IMG (Acc.) |
MMMU-val (Acc.) |
HallusionBench (Acc.) |
||
Proprietary Models | ||||||||
GPT-4o | - | 83.4♢ | 82.1♢ | - | 69.1♢ |
55.0♢ |
||
GPT-4o-mini | - | 77.7 | 76.9 | 72.3 | 60.0♢ | 46.1♢ | ||
Open Source Models (Vision-Language) | ||||||||
Qwen2-VL-7B | 7B | 81.7 | 81.9 | 76.5 |
52.7 | 50.6∗ | ||
MiniCPM-Llama3-V 2.5 | 8B | 76.7 | 73.3 | 72.4 | 45.8∗ | 42.5 | ||
Open Source Models (Omni-modal) | ||||||||
VITA | 8x7B | 74.7 | 71.4 | 72.6 | 45.3 | 39.7∗ | ||
VITA-1.5 | 7B | 80.8 | 80.2 | 74.2 | 53.1 | 44.1 | ||
Baichuan-Omni | 7B | 76.2 | 74.9 | 74.1 | 47.3 | 47.8 | ||
MiniCPM-o 2.6 | 7B | 83.6 | 81.8 | 75.4 | 51.1 | 50.1 | ||
Baichuan-Omni-1.5 |
7B | 85.6 |
83.6 |
75.7 | 53.9 | 49.7 |
Visual Question Answering | ||||||||
---|---|---|---|---|---|---|---|---|
Model | Size | RealWorldQA (Acc.) |
MathVista-mini (Acc.) |
TextVQA-val (Acc.) |
ChartQA (Acc.) |
OCRBench (Acc.) |
||
Proprietary Models | ||||||||
GPT-4o | - | 75.4♢ |
63.8♢ | - | 85.7♢ | 73.6♢ | ||
GPT-4o-mini | - | 66.3 | 53.4 | 66.8 | - | 77.4 | ||
Open Source Models (Vision-Language) | ||||||||
Qwen2-VL-7B | 7B | 69.7 | 58.2∗ | 84.3∗ |
83.0∗ | 84.5∗ | ||
MiniCPM-Llama3-V 2.5 | 8B | 63.5 | 54.3∗ | 76.6 | 72.0 | 72.5 | ||
Open Source Models (Omni-modal) | ||||||||
VITA | 8x7B | 59.0 | 44.9∗ | 71.8 | 76.6 | 68.5∗ | ||
VITA-1.5 | 7B | 66.8 | 66.5 |
74.9 | 79.6 | 73.3 | ||
Baichuan-Omni | 7B | 62.6 | 51.9 | 74.3 | 79.6 | 70.0 | ||
MiniCPM-o 2.6 | 7B | 67.7 | 64.6 | 80.1 | 87.6 |
89.7∗ |
||
Baichuan-Omni-1.5 | 7B | 68.8 | 63.6 | 83.2 | 84.9 | 84.0 |
点击查看视频理解能力详细评测结果。
General VQA | ||||||
---|---|---|---|---|---|---|
Model | Size | # Frames | MVBench (Acc.) |
Egoschema (Acc.) |
VideoMME (Acc.) |
Perception-Test (Acc.) |
Proprietary Models | ||||||
Gemini 1.5 Pro | - | - | 81.3♢ |
63.2* | 75.0♢ |
- |
GPT 4o mini | - | - | 55.2 | 58.5 | 63.6 | 48.2 |
GPT 4o | - | - | - | 77.2* |
71.9♢ | - |
GPT 4V | - | - | 43.7♢ | 55.6* | 59.9♢ | - |
Open-source Models (Vision-language) | ||||||
Qwen2-VL-7B | 7B | 2 fps (max 768) | 67.0* | 64.4 | 66.7* | 66.6 | 63.3* | 59.0 | 62.3* | 60.3 |
AnyGPT | 8B | 48 | 33.2 | 32.1 | 29.8 | 29.1 |
VideoLLaMA 2 | 7B | 16 | 54.6* | 51.7* | 46.6* | 51.4* |
VideoChat2 | 7B | 16 | 51.1* | 42.1♢ | 33.7♢ | 47.3♢ |
LLaVA-NeXT-Video | 7B | 32 | 46.5♢ | 43.9♢ | 33.7♢ | 48.8♢ |
Video-LLaVA | 7B | 8 | 41.0♢ | 38.4♢ | 39.9♢ | 44.3♢ |
Open-source Models (Omni-modal) | ||||||
VITA | 8x7B | 1 fps (max 32) | 53.4 | 53.9 | 56.1 | 56.2 |
VITA-1.5 | 7B | 1 fps (max 32) | 55.5 | 54.7 | 57.3 | 57.6 |
Baichuan-Omni | 7B | 1 fps (max 32) | 60.9 | 58.8 | 58.2 | 56.8 |
MiniCPM-o 2.6 | 7B | 1 fps (max 64) | 58.6 | 50.7 | 63.4 | 66.6 |
Baichuan-Omini-1.5 | 7B | 1 fps (max 32) | 63.7 | 62.4 | 60.1 | 68.9 |
Open-ended VQA | ||||||
---|---|---|---|---|---|---|
Model | Size | # Frames | ActivityNet-QA | MSVD-QA | ||
(Acc.) | (Score) | (Acc.) | (Score) | |||
Proprietary Models | ||||||
Gemini 1.5 Pro | - | - | 56.7* | - | - | - |
GPT 4o mini | - | 1 fps (max 32) | 62.1 | 3.1 | 67.5 | 3.3 |
GPT 4o | - | - | 61.9* | - | - | - |
GPT 4V | - | - | 59.5* | - | - | - |
Open-source Models (Vision-language) | ||||||
Qwen2 VL | 7B | 2 fps (max 768) | 17.4 | 1.9 | 61.1 | 3.5 |
VideoLLaMA 2 | 7B | 16 | 50.2* | 3.3* | 70.9* | 3.8* |
VideoChat2 | 7B | 16 | 49.1* | 3.3* | 70.0* | 3.9* |
LLaVA-NeXT-Video | 7B | 32 | 53.5* | 3.2* | 67.4 | 3.4 |
Video-LLaVA | 7B | 8 | 45.3* | 3.3* | 70.7* | 3.9* |
Open-source Models (Omni-modal) | ||||||
VITA | 8x7B | 1 fps (max 32) | 55.0 | 3.5 | 63.9 | 3.7 |
VITA-1.5 | 7B | 1 fps (max 32) | 59.6 | 3.0 | 67.6 | 3.3 |
Baichuan-Omni | 7B | 1 fps (max 48) | 58.6 | 3.7 |
72.2 | 4.0 |
MiniCPM-o 2.6 | 7B | 1 fps (max 64) | 63.0 |
3.1 | 73.7 | 3.6 |
Baichuan-Omni-1.5 | 7B | 1 fps (max 48) | 62.0 | 3.1 | 74.2 |
3.6 |
点击查看语音理解与生成能力详细评测结果。
Audio Comprehensive Capacity | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Model | Size | Reasoning QA | Llama Questions | Web Questions | TriviaQA | AlpacaEval | |||||
s→t | s→s | s→t | s→s | s→t | s→s | s→t | s→s | s→t | s→s | ||
Proprietary Models | |||||||||||
GPT-4o-Audio | - | 55.6 | - | 88.4 | - | 8.10 | - | 9.06 | - | 8.01 | - |
Open-source Models (Pure Audio) | |||||||||||
GLM-4-Voice | 9B | - | 26.5 | - | 71.0 | - | 5.15 | - | 4.66 | - | 4.89 |
Open-source Models (Omni-modal) | |||||||||||
VITA-1.5 | 7B | 41.0 | - | 74.2 | - | 5.73 | - | 4.68 | - | 6.82 | - |
MiniCPM-o 2.6 | 7B | 38.6 | - | 77.8 | - | 6.86 | - | 6.19 | - | 5.18 | - |
Baichuan-Omni-1.5 | 7B | 50.0 | 40.9 | 78.5 | 75.3 | 5.91 | 5.52 | 5.72 | 5.31 | 7.79 | 6.94 |
点击查看全模态理解能力详细评测结果。
Omni-Undesratnding | ||||||
---|---|---|---|---|---|---|
Model | Size | Image & Audio (Acc.) |
Image Caption & Audio (Acc.) |
Image & Audio Transcript (Acc.) |
Image Caption & Audio Transcript (Acc.) |
|
Proprietary Models | ||||||
GPT4o-mini | - | - | - | 37.0 | 37.7 | |
Open-source Models (Omni-modal) | ||||||
VITA | 8x7B | 33.1 | 31.8 | 42.0 | 44.2 | |
VITA-1.5 | 7B | 33.4 | 29.6 | 48.5 | 47.2 |
|
Baichuan-Omni | 7B | 32.2 | 26.5 | 42.6 | 44.2 | |
MiniCPM-o 2.6 | 7B | 40.5 | 30.8 | 53.2 |
46.3 | |
Baichuan-Omni-1.5 |
7B | 42.9 |
37.7 |
47.9 | 46.9 |
点击查看医疗图像理解能力详细评测结果。
Medical Understanding | ||||||
---|---|---|---|---|---|---|
Model | Size | GMAI-MMB-VAL (Acc.) |
OpenMM-Medical (Acc.) |
|||
Proprietary Models | ||||||
GPT4o-mini | - | 46.4 | 74.3 | |||
Open-source Models (Vision-Language) | ||||||
Qwen2 VL | 7B | 46.3 | 76.9 | |||
Qwen2 VL | 72B | 50.7 |
80.7 | |||
Open-source Models (Omni-modal) | ||||||
VITA-1.5 | 7B | 36.7 | 67.1 | |||
MiniCPM-o 2.6 | 7B | 41.5 | 73.6 | |||
Baichuan-Omni-1.5 |
7B | 49.9 | 83.8 |
conda create -n baichuan_omni python==3.12
conda activate baichuan_omni
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r baichuan_omni_requirements.txt
pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
apt install llvm ffmpeg
修改 web_demo/constants.py 中的 MODEL_PATH 为本地模型路径
cd web_demo
python vision_s2s_gradio_demo_cosy_multiturn.py
cd web_demo
python s2s_gradio_demo_cosy_multiturn.py
cd web_demo
python video_s2s_gradio_demo_cosy_singleturn.py
coming soon
OpenMM-Medical
为了更全面的评估模型医疗多模态能力,我们从公开医学图像数据集中收集了 OpenMM-Medical 评测集,包含 ACRIMA(眼底图像)、BioMediTech(显微镜图像)和 CoronaHack(X 射线)等,总共包含 88,996 张图像。
OpenAudioBench
为了更高效的评估模型的“智商”问题,我们构建了 OpenAudioBench,共包含5个音频端到端理解子评测集,分别是4个公开评测集(llama question、WEB QA、TriviaQA、AlpacaEval),以及百川团队自建的语音逻辑推理评测集,共2701条数据,能够综合反映模型“智商”水平。
- 视觉编码器架构:【NaVit】(https://arxiv.org/abs/2307.06304v1)
- 自动语音识别(ASR, Automatic Speech Recognition)模型:【Whisper】(https://github.com/openai/whisper)
- 大语言模型(LLM):【Qwen2.5 7B】(https://arxiv.org/abs/2412.15115)
- 视觉编码器的权重初始化于Qwen2-VL-7B:(https://arxiv.org/abs/2409.12191)
- 部分代码来自:CosyVoice和Matcha-TTS:(https://github.com/FunAudioLLM/CosyVoice, https://github.com/shivammehta25/Matcha-TTS/)
- 使用CosyVoice 2.0中的HiFi-GAN vocoder:(https://funaudiollm.github.io/cosyvoice2/)
我们强烈呼吁所有使用者,不要利用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。 我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
社区使用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型需要遵循 Apache 2.0 和《Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型社区许可协议》。Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型支持商业用途,如果您计划将 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型或其衍生品用于商业目的,请您确认您的主体符合以下情况:
- 您或您的关联方的服务或产品的日均用户活跃量(DAU)低于100万。
- 您或您的关联方不是软件服务提供商、云服务提供商。
- 您或您的关联方不存在将授予您的商用许可,未经百川许可二次授权给其他第三方的可能。
- 在符合以上条件的前提下,您需要通过以下联系邮箱 [email protected],提交《Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型社区许可协议》要求的申请材料。审核通过后,百川将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
如果您觉得我们模型/代码/论文有帮助,请给我们 ⭐ 和 引用 📝,感谢!
@article{li2025baichuan,
title={Baichuan-Omni-1.5 Technical Report},
author={Li, Yadong and Liu, Jun and Zhang, Tao and Chen, Song and Li, Tianpeng and Li, Zehuan and Liu, Lijun and Ming, Lingfeng and Dong, Guosheng and Pan, Da and others},
journal={arXiv preprint arXiv:2501.15368},
year={2025}
}