Skip to content

Latest commit

 

History

History
349 lines (254 loc) · 8.98 KB

README_zh-CN.md

File metadata and controls

349 lines (254 loc) · 8.98 KB

👋 加入我们的推特Discord微信社区

🧭 欢迎

来到OpenCompass

就像指南针在我们的旅程中为我们导航一样,我们希望OpenCompass能够帮助你穿越评估大型语言模型的重重迷雾。OpenCompass提供丰富的算法和功能支持,期待OpenCompass能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。

🚀 最新进展

✨ 介绍

OpenCompass 是面向大模型评测的一站式平台。其主要特点如下:

  • 开源可复现:提供公平、公开、可复现的大模型评测方案

  • 全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力

  • 丰富的模型支持:已支持 20+ HuggingFace 及 API 模型

  • 分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测

  • 多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能

  • 灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展!

📊 性能榜单

我们将陆续提供开源模型和API模型的具体性能榜单,请见 OpenCompass Leaderbaord 。如需加入评测,请提供模型仓库地址或标准的 API 接口至邮箱 [email protected].

🔝返回顶部

📖 数据集支持

语言 知识 推理 学科 理解
字词释义
  • WiC
  • SummEdits
成语习语
  • CHID
语义相似度
  • AFQMC
  • BUSTM
指代消解
  • CLUEWSC
  • WSC
  • WinoGrande
翻译
  • Flores
知识问答
  • BoolQ
  • CommonSenseQA
  • NaturalQuestion
  • TrivialQA
多语种问答
  • TyDi-QA
文本蕴含
  • CMNLI
  • OCNLI
  • OCNLI_FC
  • AX-b
  • AX-g
  • CB
  • RTE
常识推理
  • StoryCloze
  • StoryCloze-CN(即将上线)
  • COPA
  • ReCoRD
  • HellaSwag
  • PIQA
  • SIQA
数学推理
  • MATH
  • GSM8K
定理应用
  • TheoremQA
代码
  • HumanEval
  • MBPP
综合推理
  • BBH
初中/高中/大学/职业考试
  • GAOKAO-2023
  • CEval
  • AGIEval
  • MMLU
  • GAOKAO-Bench
  • CMMLU
  • ARC
阅读理解
  • C3
  • CMRC
  • DRCD
  • MultiRC
  • RACE
内容总结
  • CSL
  • LCSTS
  • XSum
内容分析
  • EPRSTMT
  • LAMBADA
  • TNEWS

🔝返回顶部

📖 模型支持

开源模型 API 模型
  • LLaMA
  • Vicuna
  • Alpaca
  • Baichuan
  • WizardLM
  • ChatGLM-6B
  • ChatGLM2-6B
  • MPT
  • Falcon
  • TigerBot
  • MOSS
  • ……
  • OpenAI
  • Claude (即将推出)
  • PaLM (即将推出)
  • ……

🛠️ 安装

下面展示了快速安装以及准备数据集的步骤。

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/InternLM/opencompass opencompass
cd opencompass
pip install -e .
# 下载数据集到 data/ 处
wget https://github.com/InternLM/opencompass/releases/download/0.1.1/OpenCompassData.zip
unzip OpenCompassData.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要额外步骤才能正常运行,详细步骤请参考安装指南

🔝返回顶部

🏗️ ️评测

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,请阅读快速上手了解如何运行一个评测任务。

更多教程请查看我们的文档

👷‍♂️ 贡献

我们感谢所有的贡献者为改进和提升 OpenCompass 所作出的努力。请参考贡献指南来了解参与项目贡献的相关指引。

🤝 致谢

该项目部分的代码引用并修改自 OpenICL

该项目部分的数据集和提示词实现修改自 chain-of-thought-hub, instruct-eval

🖊️ 引用

@misc{2023opencompass,
    title={OpenCompass: A Universal Evaluation Platform for Foundation Models},
    author={OpenCompass Contributors},
    howpublished = {\url{https://github.com/InternLM/OpenCompass}},
    year={2023}
}

🔝返回顶部