Skip to content

Commit

Permalink
Merge branch 'PaddlePaddle:develop' into develop
Browse files Browse the repository at this point in the history
  • Loading branch information
swagger-coder authored Dec 4, 2024
2 parents 165b1d8 + 559ee98 commit 7f13b51
Show file tree
Hide file tree
Showing 2 changed files with 30 additions and 9 deletions.
11 changes: 8 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -34,11 +34,16 @@


## 📰新闻
**🔥2024.10.31日 PaddleMIX 2.1版本发新直播**
**🔥2024.11.21日 - 2024.12.22日 PaddleMIX开发项目挑战**

- 🎉飞桨多模态大模型套件PaddleMIX全新发布2.1版本!百度研发工程师已在 10月31日(周四)20:00,为大家详细解读了套件更新内容,以及多模态数据能力标签模型 PP-InsCapTagger 的实现细节和案例应用。
- ✨「体验官招募」PaddleMIX开发项目挑战
点击链接报名🔗:https://aistudio.baidu.com/activitydetail/1503019366
🏆投稿至飞桨星河社区项目大厅,加精获得PaddleMIX体验官认证证书及京东卡激励
欢迎大家投稿~
<p align="center">
<img src='https://github.com/user-attachments/assets/27e0bbe3-0ff8-49ef-bd39-81a31a2b288b' width="25%">
</p>

</div>

## 📣最新进展

Expand Down
28 changes: 22 additions & 6 deletions paddlemix/examples/internvl2/README.md
Original file line number Diff line number Diff line change
@@ -1,11 +1,26 @@
# InternVL2 模型


## 0. 多模态理解大模型介绍
多模态理解大模型是一类能够同时处理和理解多种数据形式(如图像📸、文本📝、视频🎥等)的人工智能模型。这类模型通过深度学习技术,可以实现跨模态的信息理解、关联和生成!相比传统的单模态模型,多模态模型能够更全面地理解和分析复杂场景,在实际应用中具有更强的实用性和普适性。✨典型应用包括:图文理解、视觉问答、文档理解、场景描述等任务。随着技术的发展,多模态大模型在准确性、鲁棒性和通用性等方面都取得了显著进步,为人工智能的发展开辟了新的方向!🎯

下面介绍 InternVL2,一个强大的开源多模态大语言模型(MLLM)。InternVL2 系列包含从适用于参数较小的1B模型到功能更强大的模型。凭借更大规模的语言模型,InternVL2-Pro 展现出卓越的多模态理解能力,在各种基准测试中可与商业闭源模型相媲美。🌈

<div style="text-align: center; width: 100%;">
<img src="https://github.com/user-attachments/assets/772bad8a-c55e-4fbc-b148-fbcd7bd424cb" alt="InternVL2 Benchmark" style="width: 80%; height: auto;">
</div>

## 1. 模型介绍

[InternVL2](https://internvl.github.io/blog/2024-07-02-InternVL-2.0/)是 InternVL 系列多模态大模型的最新成员。InternVL2 包含多个经过指令微调的模型,参数量从 1B 到 76B 不等。在开源模型中,InternVL2 在文档和图表理解、信息图表问答、场景文本理解和 OCR 任务、科学和数学问题解决等方面表现出色。
<div style="text-align: center; width: 100%;">
<img src="https://github.com/user-attachments/assets/78f3094c-85d9-4dbf-8fd6-5c1c6a90dbf5" alt="InternVL2 Architecture" style="width: 90%; height: auto;">
</div>

[InternVL2](https://internvl.github.io/blog/2024-07-02-InternVL-2.0/)是 InternVL 系列多模态理解大模型的最新成员。InternVL2 包含多个经过指令微调的模型,参数量从 1B 到 76B 不等。在开源模型中,InternVL2 在文档和图表理解、信息图表问答、场景文本理解和 OCR 任务、科学和数学问题解决等方面表现出色。
[InternVL2-MPO](https://internvl.github.io/blog/2024-11-14-InternVL-2.0-MPO/)是混合偏好优化后的InternVL2模型,基于InternVL2在多个基准测试中表现出了改进的性能,特别是在多模态推理方面。



**本仓库支持的模型权重:**

| Model |
Expand All @@ -29,10 +44,9 @@
## 3. 模型推理预测

### 3.1. 图片预测
<div style="width: 300px; height: 300px; margin: 0 auto; text-align: center;">
<img src="https://raw.githubusercontent.com/PaddlePaddle/PaddleMIX/develop/paddlemix/demo_images/examples_image1.jpg"
alt="examples_image1"
style="max-width: 100%; height: auto;"/>

<div style="text-align: center; width: 100%;">
<img src="https://raw.githubusercontent.com/PaddlePaddle/PaddleMIX/develop/paddlemix/demo_images/examples_image1.jpg" alt="InternVL2 Benchmark" style="width: 50%; height: auto;">
</div>

```bash
Expand All @@ -48,8 +62,10 @@ python paddlemix/examples/internvl2/chat_demo.py \

### 3.2. 视频预测



<div style="display: flex; justify-content: center; align-items: center;">
<video width="300" height="300" controls>
<video style="width: 25%; height: auto;" >
<source src="https://raw.githubusercontent.com/PaddlePaddle/PaddleMIX/develop/paddlemix/demo_images/red-panda.mp4" type="video/mp4">
</video>
</div>
Expand Down

0 comments on commit 7f13b51

Please sign in to comment.