开源全模态基座，支持文本、图像、视频、音频输入以及文本、音频输出的全模态大模型

中文 | English

Baichuan-Omni-1.5 🤗 | Baichuan-Omni-1.5-Base 🤗 | 技术报告 📖

OpenMM-Medical 🤗 | OpenAudioBench 🤗

Baichuan-Omni-1.5 是从 Baichuan-omni 升级的最新的、端到端训练的、支持全模态输入/双模态输出的多模态大模型。该模型使用Qwen2.5-7B作为大语言模型基座，可以端到端方式，接受图像、视频、文本、音频作为输入，并且以可控的方式生成高质量文本和语音。

Baichuan-Omni-1.5-Base: 为促进全模态大模型发展，我们开源了使用高质量海量数据训练的全模态基座模型。该模型未经SFT指令微调，可塑性强，是目前性能最好的全模态基座模型。
Baichuan-Omni-1.5: 基于性能强悍的Baichuan-Omni-1.5-base，使用高质量的全模态对齐数据，进行端到端的多模态指令数据训练。Baichuan-Omni-1.5的纯文本、图像、视频、音频理解能力达到了 GPT-4o-mini 级别。

📖 目录

开源全模态基座，支持文本、图像、视频、音频输入以及文本、音频输出的全模态大模型
📖 目录
🏁 Baichuan-Omni-1.5

Baichuan-Omni-1.5

Baichuan-Omni-1.5 是 Baichuan-omni 系列的最新、性能一流模型。该模型通过端到端方式训练和推理。与其他开源模型相比，Baichuan-Omni-1.5 在文本、图像、音频和视频输入的理解能力有显著提升，并支持了可控的实时语音对话和多模态实时交互的新功能。此外，Baichuan-Omni-1.5 也是目前最出色的开源医疗多模态模型。Baichuan-Omni-1.5 的主要特性包括：

多模态理解和交互能力： Baichuan-Omni-1.5 接受图像、视频、文本、音频作为输入，并生成高质量文本和语音输出，能够在不损害任何模态能力的情况下实现无缝的高质量跨模态交互，并和用户进行实时语音对话。在针对全模态理解的综合评测基准 OminiBench 中，Baichuan-Omni-1.5 取得开源社区一流水平，并超过了 GPT-4o-mini。
优秀的视觉能力： Baichuan-Omni-1.5 在 OpenCompass 常用的十个视觉评测集上平均得分 73.3，在7B量级的大小下，在图像理解方面超越了 GPT-4o-mini，比GPT-4o-mini平均高出6分，并且和GPT-4o的结果相近。此外，视频理解表现也优于GPT-4V。
出色的语音能力： Baichuan-Omni-1.5 通过一个 8 层 RVQ 音频Tokenizer（Baichuan-Audio-Tokenizer），在 12.5 Hz 帧率下实现了语义和声学信息捕获的最佳平衡，支持高质量可控制声音的中英双语实时对话。Baichuan-Omni-1.5 在语音理解任务优于 GLM-4-Voice，并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。同时，我们还开源了音频理解和生成基准（OpenAudio-Bench），以评估音频的端到端能力。
领先的医疗图像理解能力： 我们从开源数据集中收集了一个比较全面的医学理解基准（OpenMM-Medical）用于评估模型的医学能力。Baichuan-Omni-1.5 在 GMAI-MMBench 以及 OpenMM-Medical 上取得了最佳的表现。在 OpenMM-Medical 上，Baichuan-Omni-1.5 仅使用 7B 的 LLM 取得了 83.8% 的高分，超过 Qwen2-VL-72B 的 80.7%。

模型架构

多阶段全模态的训练框架

性能评估

点击查看纯文本理解能力详细评测结果。

纯文本理解能力

Comprehensive Tasks
Model	Size	MMLU (Acc.)	CMMLU (Acc.)	AGIEval (Acc.)	C-Eval (Acc.)	GAOKAO (Acc.)
Proprietary Models
GPT 4o	-	88.0♢	78.3♢	62.3♢	86.0♢	-
GPT 4o mini	-	82.0	67.6	52.2	63.6	70.8
Open-source Models (Pure text)
MAP-Neo	7B	58.2	55.1	33.9	57.5	-
Qwen1.5-Chat	7B	61.5	68.0	39.3	68.8	-
Llama3-Instruct	8B	67.1	51.7	38.4	50.7	-
OLMo	7B	28.4	25.6	19.9	27.3	-
Open-source Models (Omni-modal)
VITA	8x7B	71.0*	46.6	46.2*	56.7*	-
VITA-1.5	7B	71.0	75.1	47.9	65.6	57.4
Baichuan-Omni	7B	65.3	72.2	47.7	68.9	-
MiniCPM-o 2.6	7B	65.3	63.3	50.9	61.5	56.3
Baichuan-Omni-1.5	7B	72.2	75.5	54.4	73.1	73.5

点击查看图像理解能力详细评测结果。

图像理解能力

Multi-choice & Yes-or-No Question
Model	Size	MMBench-EN (Acc.)	MMbench-CN (Acc.)	SEED-IMG (Acc.)	MMMU-val (Acc.)	HallusionBench (Acc.)
Proprietary Models
GPT-4o	-	83.4♢	82.1♢	-	69.1♢	55.0♢
GPT-4o-mini	-	77.7	76.9	72.3	60.0♢	46.1♢
Open Source Models (Vision-Language)
Qwen2-VL-7B	7B	81.7	81.9	76.5	52.7	50.6∗
MiniCPM-Llama3-V 2.5	8B	76.7	73.3	72.4	45.8∗	42.5
Open Source Models (Omni-modal)
VITA	8x7B	74.7	71.4	72.6	45.3	39.7∗
VITA-1.5	7B	80.8	80.2	74.2	53.1	44.1
Baichuan-Omni	7B	76.2	74.9	74.1	47.3	47.8
MiniCPM-o 2.6	7B	83.6	81.8	75.4	51.1	50.1
Baichuan-Omni-1.5	7B	85.6	83.6	75.7	53.9	49.7

Visual Question Answering
Model	Size	RealWorldQA (Acc.)	MathVista-mini (Acc.)	TextVQA-val (Acc.)	ChartQA (Acc.)	OCRBench (Acc.)
Proprietary Models
GPT-4o	-	75.4♢	63.8♢	-	85.7♢	73.6♢
GPT-4o-mini	-	66.3	53.4	66.8	-	77.4
Open Source Models (Vision-Language)
Qwen2-VL-7B	7B	69.7	58.2∗	84.3∗	83.0∗	84.5∗
MiniCPM-Llama3-V 2.5	8B	63.5	54.3∗	76.6	72.0	72.5
Open Source Models (Omni-modal)
VITA	8x7B	59.0	44.9∗	71.8	76.6	68.5∗
VITA-1.5	7B	66.8	66.5	74.9	79.6	73.3
Baichuan-Omni	7B	62.6	51.9	74.3	79.6	70.0
MiniCPM-o 2.6	7B	67.7	64.6	80.1	87.6	89.7∗
Baichuan-Omni-1.5	7B	68.8	63.6	83.2	84.9	84.0

点击查看视频理解能力详细评测结果。

视频理解能力

General VQA
Model	Size	# Frames	MVBench (Acc.)	Egoschema (Acc.)	VideoMME (Acc.)	Perception-Test (Acc.)
Proprietary Models
Gemini 1.5 Pro	-	-	81.3♢	63.2*	75.0♢	-
GPT 4o mini	-	-	55.2	58.5	63.6	48.2
GPT 4o	-	-	-	77.2*	71.9♢	-
GPT 4V	-	-	43.7♢	55.6*	59.9♢	-
Open-source Models (Vision-language)
Qwen2-VL-7B	7B	2 fps (max 768)	67.0* \| 64.4	66.7* \| 66.6	63.3* \| 59.0	62.3* \| 60.3
AnyGPT	8B	48	33.2	32.1	29.8	29.1
VideoLLaMA 2	7B	16	54.6*	51.7*	46.6*	51.4*
VideoChat2	7B	16	51.1*	42.1♢	33.7♢	47.3♢
LLaVA-NeXT-Video	7B	32	46.5♢	43.9♢	33.7♢	48.8♢
Video-LLaVA	7B	8	41.0♢	38.4♢	39.9♢	44.3♢
Open-source Models (Omni-modal)
VITA	8x7B	1 fps (max 32)	53.4	53.9	56.1	56.2
VITA-1.5	7B	1 fps (max 32)	55.5	54.7	57.3	57.6
Baichuan-Omni	7B	1 fps (max 32)	60.9	58.8	58.2	56.8
MiniCPM-o 2.6	7B	1 fps (max 64)	58.6	50.7	63.4	66.6
Baichuan-Omini-1.5	7B	1 fps (max 32)	63.7	62.4	60.1	68.9

Open-ended VQA
Model	Size	# Frames	ActivityNet-QA		MSVD-QA
Model	Size	# Frames	(Acc.)	(Score)	(Acc.)	(Score)
Proprietary Models
Gemini 1.5 Pro	-	-	56.7*	-	-	-
GPT 4o mini	-	1 fps (max 32)	62.1	3.1	67.5	3.3
GPT 4o	-	-	61.9*	-	-	-
GPT 4V	-	-	59.5*	-	-	-
Open-source Models (Vision-language)
Qwen2 VL	7B	2 fps (max 768)	17.4	1.9	61.1	3.5
VideoLLaMA 2	7B	16	50.2*	3.3*	70.9*	3.8*
VideoChat2	7B	16	49.1*	3.3*	70.0*	3.9*
LLaVA-NeXT-Video	7B	32	53.5*	3.2*	67.4	3.4
Video-LLaVA	7B	8	45.3*	3.3*	70.7*	3.9*
Open-source Models (Omni-modal)
VITA	8x7B	1 fps (max 32)	55.0	3.5	63.9	3.7
VITA-1.5	7B	1 fps (max 32)	59.6	3.0	67.6	3.3
Baichuan-Omni	7B	1 fps (max 48)	58.6	3.7	72.2	4.0
MiniCPM-o 2.6	7B	1 fps (max 64)	63.0	3.1	73.7	3.6
Baichuan-Omni-1.5	7B	1 fps (max 48)	62.0	3.1	74.2	3.6

点击查看语音理解与生成能力详细评测结果。

语音理解与生成综合能力

Audio Comprehensive Capacity
Model	Size	Reasoning QA		Llama Questions		Web Questions		TriviaQA		AlpacaEval
Model	Size	s→t	s→s	s→t	s→s	s→t	s→s	s→t	s→s	s→t	s→s
Proprietary Models
GPT-4o-Audio	-	55.6	-	88.4	-	8.10	-	9.06	-	8.01	-
Open-source Models (Pure Audio)
GLM-4-Voice	9B	-	26.5	-	71.0	-	5.15	-	4.66	-	4.89
Open-source Models (Omni-modal)
VITA-1.5	7B	41.0	-	74.2	-	5.73	-	4.68	-	6.82	-
MiniCPM-o 2.6	7B	38.6	-	77.8	-	6.86	-	6.19	-	5.18	-
Baichuan-Omni-1.5	7B	50.0	40.9	78.5	75.3	5.91	5.52	5.72	5.31	7.79	6.94

点击查看全模态理解能力详细评测结果。

全模态理解能力

Omni-Undesratnding
Model	Size	Image & Audio (Acc.)	Image Caption & Audio (Acc.)	Image & Audio Transcript (Acc.)	Image Caption & Audio Transcript (Acc.)
Proprietary Models
GPT4o-mini	-	-	-	37.0	37.7
Open-source Models (Omni-modal)
VITA	8x7B	33.1	31.8	42.0	44.2
VITA-1.5	7B	33.4	29.6	48.5	47.2
Baichuan-Omni	7B	32.2	26.5	42.6	44.2
MiniCPM-o 2.6	7B	40.5	30.8	53.2	46.3
Baichuan-Omni-1.5	7B	42.9	37.7	47.9	46.9

点击查看医疗图像理解能力详细评测结果。

医疗图像理解能力

Medical Understanding
Model	Size	GMAI-MMB-VAL (Acc.)	OpenMM-Medical (Acc.)
Proprietary Models
GPT4o-mini	-	46.4	74.3
Open-source Models (Vision-Language)
Qwen2 VL	7B	46.3	76.9
Qwen2 VL	72B	50.7	80.7
Open-source Models (Omni-modal)
VITA-1.5	7B	36.7	67.1
MiniCPM-o 2.6	7B	41.5	73.6
Baichuan-Omni-1.5	7B	49.9	83.8

典型示例

本地 WebUI Demo

准备工作

创建虚拟环境

conda create -n baichuan_omni python==3.12
conda activate baichuan_omni
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r baichuan_omni_requirements.txt
pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
apt install llvm ffmpeg

下载模型并修改模型路径

修改 web_demo/constants.py 中的 MODEL_PATH 为本地模型路径

图像Demo

cd web_demo
python vision_s2s_gradio_demo_cosy_multiturn.py

音频Demo

cd web_demo
python s2s_gradio_demo_cosy_multiturn.py

视频Demo

cd web_demo
python video_s2s_gradio_demo_cosy_singleturn.py

微调

coming soon

开源评测集

OpenMM-Medical

为了更全面的评估模型医疗多模态能力，我们从公开医学图像数据集中收集了 OpenMM-Medical 评测集，包含 ACRIMA（眼底图像）、BioMediTech（显微镜图像）和 CoronaHack（X 射线）等，总共包含 88,996 张图像。

OpenAudioBench

为了更高效的评估模型的“智商”问题，我们构建了 OpenAudioBench，共包含5个音频端到端理解子评测集，分别是4个公开评测集（llama question、WEB QA、TriviaQA、AlpacaEval），以及百川团队自建的语音逻辑推理评测集，共2701条数据，能够综合反映模型“智商”水平。

致谢

视觉编码器架构：【NaVit】(https://arxiv.org/abs/2307.06304v1)
自动语音识别（ASR, Automatic Speech Recognition）模型：【Whisper】(https://github.com/openai/whisper)
大语言模型（LLM）：【Qwen2.5 7B】(https://arxiv.org/abs/2412.15115)
视觉编码器的权重初始化于Qwen2-VL-7B：（https://arxiv.org/abs/2409.12191）
部分代码来自：CosyVoice和Matcha-TTS：(https://github.com/FunAudioLLM/CosyVoice, https://github.com/shivammehta25/Matcha-TTS/)
使用CosyVoice 2.0中的HiFi-GAN vocoder：(https://funaudiollm.github.io/cosyvoice2/)

声明

我们强烈呼吁所有使用者，不要利用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型进行任何危害国家社会安全或违法的活动。另外，我们也要求使用者不要将 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

协议

社区使用 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型需要遵循 Apache 2.0 和《Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型社区许可协议》。Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型支持商业用途，如果您计划将 Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型或其衍生品用于商业目的，请您确认您的主体符合以下情况：

您或您的关联方的服务或产品的日均用户活跃量（DAU）低于100万。
您或您的关联方不是软件服务提供商、云服务提供商。
您或您的关联方不存在将授予您的商用许可，未经百川许可二次授权给其他第三方的可能。
在符合以上条件的前提下，您需要通过以下联系邮箱 opensource.contact@baichuan-inc.com，提交《Baichuan-Omni-1.5/Baichuan-Omni-1.5-Base 模型社区许可协议》要求的申请材料。审核通过后，百川将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。

引用

如果您觉得我们模型/代码/论文有帮助，请给我们 ⭐ 和引用 📝，感谢！

@article{li2025baichuan,
  title={Baichuan-Omni-1.5 Technical Report},
  author={Li, Yadong and Liu, Jun and Zhang, Tao and Chen, Song and Li, Tianpeng and Li, Zehuan and Liu, Lijun and Ming, Lingfeng and Dong, Guosheng and Pan, Da and others},
  journal={arXiv preprint arXiv:2501.15368},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

开源全模态基座，支持文本、图像、视频、音频输入以及文本、音频输出的全模态大模型

📖 目录

Baichuan-Omni-1.5

模型架构

多阶段全模态的训练框架

性能评估

纯文本理解能力

图像理解能力

视频理解能力

语音理解与生成综合能力

全模态理解能力

医疗图像理解能力

典型示例

本地 WebUI Demo

准备工作

创建虚拟环境

下载模型并修改模型路径

图像Demo

音频Demo

视频Demo

微调

开源评测集

致谢

声明

协议

引用

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

开源全模态基座，支持文本、图像、视频、音频输入以及文本、音频输出的全模态大模型

📖 目录

Baichuan-Omni-1.5

模型架构

多阶段全模态的训练框架

性能评估

纯文本理解能力

图像理解能力

视频理解能力

语音理解与生成综合能力

全模态理解能力

医疗图像理解能力

典型示例

本地 WebUI Demo

准备工作

创建虚拟环境

下载模型并修改模型路径

图像Demo

音频Demo

视频Demo

微调

开源评测集

致谢

声明

协议

引用