模型推理与部署

本项目中的模型主要支持以下推理和部署方式：

llama.cpp

提供了一种模型量化和在本地CPU、GPU上部署方式。

教程：llama.cpp量化部署

🤗Transformers

提供原生transformers推理接口，支持CPU/GPU上进行模型推理。

教程：使用Transformers推理

text-generation-webui

提供了一种可实现前端UI界面的部署方式。

教程：使用text-generation-webui搭建界面

LlamaChat

提供了一种基于macOS系统的图形交互界面，支持GGML（.bin格式）和PyTorch（.pth格式）版本的模型加载。

教程：使用LlamaChat图形界面（macOS）

LangChain

LangChain是一个用于开发由LLM驱动的应用程序的框架，旨在帮助开发人员使用LLM构建端到端的应用程序。借助LangChain提供的组件和接口，开发人员可以方便地设计与搭建诸如问答、摘要、聊天机器人、代码理解、信息提取等多种基于LLM能力的应用程序。

教程：与LangChain进行集成

privateGPT

privateGPT 是基于llama-cpp-python和LangChain等的一个开源项目，旨在提供本地化文档分析并利用大模型来进行交互问答的接口。用户可以利用privateGPT对本地文档进行分析，并且利用GPT4All或llama.cpp兼容的大模型文件对文档内容进行提问和回答，确保了数据本地化和私有化。

教程：使用privateGPT进行多文档问答

中文文档

模型合并与转换
- 在线模型合并与转换（Colab）
- 手动模型合并与转换
模型量化、推理、部署
效果与评测
- 指令理解与生成效果
- C-Eval评测效果与脚本
训练细节
- 预训练脚本
- 指令精调脚本
常见问题

English Docs

Model Reconstruction
- Online conversion with Colab
- Manual Conversion
Model Quantization, Inference and Deployment
System Performance
- Instruction-following and Text Generation
- C-Eval
Training Details
- Pre-training Script
- SFT Script
FAQ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly