高考作为中国最权威的考试之一,覆盖各种学科和题型,旨在综合评估考生的能力。因此可以作为一个极佳的大模型评测,我们选取了在2024年6月6日之前发布的开源模型和当前最先进的大模型GPT-4o在2024年的高考试卷上进行全面的评测。与过去只测试客观题的评测不同,本测试涵盖了高考的各种题型,包括选择题、解答题、阅读题以及作文等,所有主观题均邀请在职高中老师进行评分,以期能够比较全面地评判当前大模型的能力。
因此,GAOKAO-Eval有以下四个特点:
- 全卷考试:进行全卷评分,而不只针对单一题型,且包括带图的高考题
- 考前开源:评测覆盖的开源模型均为今年高考前开源的模型,排除泄题的可能性
- 老师打分:邀请有高考阅卷经验的老师打分,确保评分和高考尽量一致
- 完全公开:生成答案的代码、模型答卷、评分结果完全开源
正如高考分数存在误差,评测也无法做到绝对公平,因此测评中的分数只是一个参考值,为了尽量客观,每个题目我们都邀请了至少三位老师评阅取均分,我们对存在阅卷分差的部分均进行了再次校准。
特别值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。
此外,我们也注意到,不同的高考试卷对大模型存在较大的分数随机性,因此不同省市的分数或排名可能出现明显变化。
注意,这个测评仅能评估大型语言模型在高考题目上的表现,不能全面评估模型的能力,因此高考分数的排名不能体现模型使用体验的好坏或者能力的高低。
- [2024.07.17] 完成6个开源模型全国甲卷除了政治外的语数外文综理综八科评测,点击全国甲卷结果查看详情
- [2024.07.17] 完成6个开源模型新课标卷文综理综六科评测,点击新课标卷结果查看详情;修正新课标Ⅰ卷数学第10题的评测;新增Gradio调用脚本
- [2024.06.15] 完成6个开源模型新课标I卷语、数、外三科评测,点击新课标卷结果查看详情
随着高考的改革,2024年全国高考试卷共有六种类型,其中北京卷、上海卷、天津卷、全国甲卷涵盖所有学科,使用新课标I卷、新课标II卷的省市使用对应的语数外试卷,大部分省市非语数外的科目自主命题。在GAOKAO-Eval中,我们测试新课标卷和全国甲卷所有的已公开试卷。
试卷类型 | 使用省市 |
---|---|
新课标I卷 | 广东、福建、湖北、湖南、江苏、河北、山东、浙江、江西、安徽、河南 |
新课标II卷 | 辽宁、重庆、海南、山西、新疆、广西、贵州、黑龙江、甘肃、吉林、云南、西藏 |
新课标卷 | 山西、河南、云南、西藏、新疆 |
全国甲卷 | 四川、内蒙古、宁夏、陕西、青海 |
北京卷 | 北京市 |
上海卷 | 上海市 |
天津卷 | 天津市 |
高考模式方面,现行体系主要分为三大类:
- “3+1+2”新模式,已被23个省份广泛采纳,此模式围绕语文、数学、外语三大基础学科构建,要求学生在物理与历史中择其一作为首选科目,并从剩余四科(思想政治、地理、化学、生物)中自由选择两科。
- “3+3”模式,目前有6个省份采用,在此框架下,学生在完成语、数、外必修后,可从包括思想政治至生物在内的六科中(浙江省额外包含技术科目),自由组合三科作为选修。
- 余下的5个省份依旧沿用全国甲卷的文理分科体系,保持了传统分类下的学术评估路径。
新课标†得分情况(按照理科总分排序) | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
模型 | 研发机构 | 语文 | 数学 | 英语 | 物理 | 化学 | 生物 | 历史 | 地理 | 政治 | 理科总分 | 文科总分 |
InternLM-WQX+VL-20B | 上海人工智能实验室 & 商汤科技 联合研发 | 112 | 74 | 138.5 | 39 | 48 | 57 | 82 | 58 | 67 | 468.5 | 531.5 |
GPT-4o | OpenAI(美国) | 111.5 | 73 | 141.5 | 36 | 40 | 65 | 88 | 59 | 58 | 467 | 531 |
Qwen2-72B纯文本 | 阿里巴巴 | 124 | 68 | 139 | 42 | 44 | 48 | 85 | 70 | 60 | 465 | 546 |
Qwen2-72B+VL-7B | 阿里巴巴 | 124 | 68 | 139 | 19 | 6 | 48 | 85 | 4 | 60 | 404 | 480 |
Yi-34B+VL-34B | 零一万物 | 97 | 31 | 134.5 | 21 | 37 | 49 | 48 | 41 | 51 | 369.5 | 402.5 |
Qwen2-57B+VL-7B | 阿里巴巴 | 99.5 | 58 | 126.5 | 7 | 6 | 51 | 73 | 4 | 62 | 348 | 423 |
GLM4-9B+VL-9B | 智谱 AI | 86 | 48 | 97 | 18 | 27 | 67 | 80 | 62 | 48 | 343 | 421 |
Mixtral 8x22B | Mistral | 77.5 | 21 | 116.5 | 25 | 35 | 46 | 54 | 56 | 38 | 321 | 363 |
†表示测评使用的是新课标I卷语数外+新课标卷文理综
如果模型名称中含有“+VL”的字样,表明涉及到图片的题目会使用相应的多模态版本模型进行推理;如果没有“+VL”的字样,则只进行不看图的纯文本推理。
各个模型具体的详细得分情况、模型输出,请参阅新课标卷结果。
全国甲卷得分情况(按照理科总分排序) | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
模型 | 研发机构 | 语文 | 英语 | 数学(理) | 物理 | 化学 | 生物 | 数学(文) | 历史 | 地理 | 理科总分 | 文科总分(缺政治) |
Qwen2-72B纯文本 | 阿里巴巴 | 128 | 141 | 89 | 32 | 48 | 50 | 95 | 71 | 81 | 488 | 516 |
GPT-4o | OpenAI(美国) | 122 | 142.5 | 84 | 31 | 34 | 72 | 89 | 82 | 66 | 485.5 | 501.5 |
InternLM-WQX+VL-20B | 上海人工智能实验室 & 商汤科技 联合研发 | 111 | 141 | 78 | 30 | 52 | 50 | 71 | 76 | 64 | 462 | 463 |
Qwen2-72B+VL-7B | 阿里巴巴 | 128 | 141 | 89 | 22 | 22 | 50 | 95 | 71 | 34 | 452 | 469 |
Mixtral 8x22B | Mistral | 92 | 142 | 58 | 38 | 39 | 54 | 53 | 74 | 74 | 423 | 435 |
GLM4-9B+VL-9B | 智谱 AI | 108 | 110.5 | 71 | 29 | 44 | 55 | 75 | 54 | 62 | 417.5 | 409.5 |
Qwen2-57B+VL-7B | 阿里巴巴 | 108 | 141 | 65 | 6 | 22 | 44 | 75 | 77 | 30 | 386 | 431 |
Yi-34B+VL-34B | 零一万物 | 109 | 107.5 | 39 | 15 | 40 | 55.5 | 65 | 53 | 54 | 366 | 388.5 |
各个模型具体的详细得分情况、模型输出,请参阅全国甲卷结果。
在打分前,老师们并未被告知答案由大模型生成。
由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和我们确认这些情况是否是正常情况,我们会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。
一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1~2分的误差。
我们选择来自于阿里巴巴、零一万物、智谱AI、上海人工智能实验室、Mistral和OpenAI的大模型进行评测。
高考题目中存在大量的带图的题目,大语言模型只回答不带图的题目(少部分情况例外),多模态大模型对所有题目进行作答。开源模型中我们只选择在2024年6月6日之前开源的模型,同时选取了目前最强大的大模型GPT-4o作为参考。参与评测大模型的情况如下表所示
研发机构 | 模型类型 | 模型简介 | 权重上传时间 | 模型链接 | |
---|---|---|---|---|---|
书生·浦语-文曲星-20B | 上海人工智能实验室 & 商汤科技联合研发 | 语言模型 | 上海人工智能实验室联合商汤科技推出的文曲星系列基础模型。 | 2024.06.04 | 🤗HuggingFace |
书生·浦语-文曲星-20B-VL | 上海人工智能实验室 & 商汤科技联合研发 | 多模态模型 | 上海人工智能实验室联合商汤科技推出的文曲星系列多模态基础模型。 | 2024.06.04 | 🤗HuggingFace |
Qwen2-72B | 阿里巴巴 | 语言模型 | 由阿里巴巴公司发布的Qwen2系列最大的对话模型。 | 2024.05.28 | 🤗HuggingFace |
Qwen2-57B | 阿里巴巴 | 语言模型 | 由阿里巴巴公司发布的Qwen2系列MoE对话模型。 | 2024.05.04 | 🤗HuggingFace |
QwenVL-7B | 阿里巴巴 | 多模态模型 | 由阿里巴巴公司发布的多模态对话模型。 | 2023.09.25 | 🤗HuggingFace |
Yi-1.5-34B | 零一万物 | 语言模型 | 由零一万物公司发布Yi 1.5系列最大的模型。 | 2024.05.12 | 🤗HuggingFace |
Yi-VL-34B | 零一万物 | 多模态模型 | 由零一万物公司发布多模态大模型。 | 2024.01.19 | 🤗HuggingFace |
GLM4-9B | 智谱AI | 语言模型 | GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 | 2024.06.04 | 🤗HuggingFace |
GLM-4v-9B | 智谱AI | 多模态模型 | GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的多模态模型。 | 2024.06.04 | 🤗HuggingFace |
Mixtral 8x22B | Mistral(法国) | 语言模型 | Mixtral模型为法国AI创业公司Mistral现开源的最强大的对话模型 | 2024.04.17 | 🤗HuggingFace |
GPT-4o | OpenAI(美国) | 多模态模型 | OpenAI公司发布的最强大的大模型,目前也是世界上最领先的大模型 | 2024.05.13 | https://openai.com/index/hello-gpt-4o/ |
本项目的文件结构如下所示:
├── README.md
├── results/
│ ├── README.md
│ └── 新课标/ # 每种高考卷类型创建一个文件夹
│ │ ├── README.md # 对应高考卷的分数汇总
│ │ ├── 数学/ # 语言模型答题情况的jupyter notebook展示
│ │ │ ├── 新课标Ⅰ数学_Mixtral-8x22B-Instruct-v0.1.ipynb
│ │ │ └──...
│ │ ├── 英语/
│ │ ├── 语文/
│ │ ├── 化学/
│ │ └── ...
│ └── 全国甲卷/
│ ├── README.md
│ ├── 文综数学/
│ │ │ ├── 全国甲卷文综数学_Mixtral-8x22B-Instruct-v0.1.ipynb
│ │ │ └──...
│ └── ...
└── src/ # 模型推理脚本与交互代码
├── infer_chat.py.py
├── infer_wqx_vl.py
├── infer_wqx.py
├── web_ui.py
├── web_ui_wqx.py
└── web_ui_vl.py
本次评测中的语数外三科中的题目图片均被丢弃,只有文字题干会输入到模型中(新课标I卷语、数、外三科考试中,仅数学包含2道带图题目,且对题目理解和作答影响不大),英语考试中的听力部分(分值30分)在统计总分时所有模型默认均满分。对于文综理综题目,我们将其中带有图片的题目使用该系列模型中的开源多模态模型进行作答,而不含图片的纯文本题目则由纯文本模型作答。所有模型使用的生成参数、提示词、输出结果以及得分情况均开源在本仓库中。
由于Mixtral系列仅有语言模型,所以仅使用语言模型进行多模态题目的作答。同时由于QwenVL-7B作答结果过差,新课标卷地理仅能取得4分,为尽量体现Qwen系列的真实水平,我们同时评测Qwen2-72B文本模型对新课标卷与全国甲卷的物理、化学、地理的多模态题目进行作答。
多模态题目处理方法参考 多模态题目图片处理。
在打分前,老师们并未被告知答案由大模型生成。然而,由于一些模型会出现完全不理解题意、回答重复、或者回答更像解析而非解答的问题,老师们在阅卷过程中通常会与我们确认这些情况是否正常。
此外,作文题目的判卷会存在1~2分的误差,因为模型全部回答是打印体,没有卷面分。
我们由衷感谢所有参与此次项目高中阅卷老师们,大模型的输出存在各种各样的问题,老师们怀着极大的耐心认真批改,感谢他们做出的努力。
@misc{internlm_gaokao,
author = {InternLM Team},
title = {GAOKAO-Eval: A Comprehensive GAOKAO Evaluation},
year = {2024},
howpublished = {\url{https://github.com/open-compass/GAOKAO-Eval}},
note = {Accessed: 2024-06-05}
}