Skip to content

Latest commit

 

History

History
314 lines (195 loc) · 22.8 KB

README_JA.md

File metadata and controls

314 lines (195 loc) · 22.8 KB

スポンサーシップ | 報告 | パーソナリティ | コントリビューター

Chat-Haruhi-Suzumiya

大規模言語モデルでアニメキャラクターを現実に蘇らせる

Code License Data License Huggingface Gradio

We've just released finetuned ChatHaruhi-Qwen-7B model and code, try here Open In Colab. A detailed test on Harry Potter! Open In Colab

English | Chinese简体中文 | 日本語 | 🤗 Hugging Face | 📜 Paper | 🤗🗃️ 54k Dataset |

Chat-Haruhi-Suzumiya は、涼宮ハルヒのようなキャラクターの口調、性格、ストーリーを模倣した言語モデルである、

このプロジェクトは、李鲁鲁, 冷子昂, 闫晨曦, 封小洋, scixing, 沈骏一, Aria Fei, 王皓, 米唯实, 冷月, JunityZhan, 贾曜恺, 吴平宇, 孙浩甄 らによって開発されています。

これはオープンソースのプロジェクトで、メンバーは DataWhale のようなオープンソースのコミュニティから集められました。

李鲁鲁( Cheng Li@SenseTime )は、プロジェクト全体を主導し、ほとんどの機能を設計・実装した。

冷子昂( Ziang Leng@SenseTime )は、ChatHaruhi 1.0 の学習、データ生成、バックエンドアーキテクチャの設計と実装を行った。

闫晨曦( Chenxi Yan@Chengdu University of Information Technology )は、ChatHaruhi 1.0 のバックエンドの実装とメンテナンスを行った。

沈骏一( Junyi Shen@Zhejiang University )は、トレーニングコードを実装し、トレーニングデータセットの生成に参加した。

王皓( Hao Wang )は、テレビシリーズの脚本データを収集し、データ補強に参加した。

米唯实( Weishi MI@Tsinghua University )は、データ増強に参加した。

Aria Fei( Aria Fei@BJUT )は、スクリプトツールのASR機能を実装し、Openness-Aware Personality 論文プロジェクトに参加した。

封小洋( Xiaoyang Feng@Nanjing Agricultural University )は文字認識ツールを統合し、開放性を意識したパーソナリティ論文プロジェクトに参加した。

冷月 ( Song Yan )は、big bang thoery のデータを収集。スクリプトのフォーマット変換を行った。

scixing(汪好盛)( HaoSheng Wang )は、スクリプトツールに声紋認識と tts-vits 音声合成を実装した。

Linkang Zhan( JunityZhan@Case Western Reserve University )は、Genshin Impact のシステムプロンプトとストーリーデータを収集した。

贾曜恺( Yaokai Jia )は、心理学プロジェクトで Vue フロントエンドを実装し、バートの GPU 抽出を実践した。

吴平宇( Pingyu Wu@Juncai Shuyun )は、トレーニングコードの最初のバージョンのデプロイに協力した。

孙浩甄( [Haozhen Sun@Tianjin University] )は、ChatHaruhi のキャラクターフィギュアをプロットしています。

Chat-Haruhi-Suzumiya は、李鲁鲁, 冷子昂, 陈启源によって始められた Luotuo のサブプロジェクトのひとつである。

このプロジェクトは現在進行中です。Arxiv 版のリリースに伴い、32 文字、52K の対話をサポートするデータセットを、対応するローカルモデルと ChatHaruhi1.0 の推論コードとともに、一週間以内に公開する予定です。その後、ChatHaruhi2.0 に向けてプロジェクトのリファクタリングを開始する予定です。

このプロジェクトは、商用利用を許可する Apache 2.0 でライセンスされています。しかし、以下のような他の関連する協定に従う必要があります:

  • キャラクターロール自体の著作権。

  • プロジェクトで使用される API の規約(OpenAI の規約など)。

  • プロジェクトで使用されるモデルのライセンス(例えば、後に LlaMA や GLM などのモデルを採用する場合)。

クイックスタート

ChatHaruhi プロジェクトを開始するには、以下の colab リンクを直接実行することで可能です

名称 Colab リンク 説明
ChatHaruhi2.0(code) Open In Colab OpenAI 版の ChatHaruhi 2.0 が稼働中です
ChatHaruhi2.0 Demo Huggingface Gradio Hugging Face Demo (openai as LLM)
ChatHaruhi2.0 Demo Huggingface Gradio Hugging Face Demo (GLMPro as LLM)
ChatHaruhi2.0 Demo Huggingface Gradio Hugging Face Demo (讯飞星火 as LLM)
ChatGLM2-LoRA Local Model Open In Colab ChatGLM2-LoRA trained on ChatHaruhi-54K
Prototype of StoryTeller Huggingface Gradio Prototype of StoryTeller
Prototype of StoryTeller Open In Colab Prototype of StoryTeller
ChatHaruhi1.0 Open In Colab 役割の切り替えをサポートする機能統合クライアント

ChatHaruhi 2.0 のコードはすでに pip 経由でインストールできます。

ニュース

[2023-08-29] ChatGLM2-LoRA の推論コードをリリース Open In Colab

[2023-08-28] ChatHaruhi2.0 の OpenAI、Xunfei、GLMPro への対応が完了し、対応する Hugging Face のデモを開始しました。

[2023-06-07] Chat Haruhi Suzumiya が Modelscope コミュニティ主催、Alibaba Cloud と NVIDIA 共催、天地(top3)共催の Create@AI ハッカソンで準優勝、動画

[2023-06-03] CAAI 8th-Big Data and Social Computing で 2 位(top3)に入賞し、7月17日に口頭発表を行います: 8th China National Conference, BDSC 2023, Urumqi, China, July 15-17, 2023, 詳細はリンク

デモ動画

ビデオで使用されている VITS モデルは、Haruhi Suzumiya Support Group から提供されたもので現在も改良中です。この動画には音声が含まれていますのでご注意ください 📢。

My.Movie540.mp4

内容

ChatHaruhi2

今後の研究の便宜のため、リファクタリングした ChatHaruhi2.0 を pip 経由で起動できるようにしました。現在、2.0 では画像と音声のデザインが削除されていますが、これは今後の研究でリファクタリングする予定です。インストールは以下です:

pip -q install transformers openai tiktoken langchain chromadb zhipuai chatharuhi

そして、次のようにコールします:

from chatharuhi import ChatHaruhi

chatbot = ChatHaruhi(
    role_name = 'haruhi',
    llm = 'openai'
)

response = chatbot.chat(role='阿虚', text='野球の新シーズンが始まりますね!参加する?')

print(response)

詳しいドキュメントとコードは https://github.com/LC1332/Haruhi-2-Dev にあります

各デモのクイックスタート

名称 Colab リンク 説明
ChatHaruhi 1.0 Open In Colab 役割の切り替えをサポートする機能的に統合されたクライアント
Genesis Open In Colab Lulu Li が開発した最初の Gradio チャット
Baidu Studio 版 Baidu Studio Version DataWhale ティーチングアシスタントの Qijun Ma が開発した Baidu Studio の簡易版
Hugging Face 版 Huggingface Gradio Hugging Face 版
パーソナリティ - 大学入試小論文 Open In Colab 開放性の高低に合わせた大学入試小論文ジェネレーター、リンク
パーソナリティ-Chatbot Open In Colab 開口性の高低に対応するチャットボット、リンク
Chat Megumi Open In Colab Chat Megumi は、コミュニティの仲間が集めたコーパスを利用して作成されました。

過去のニュース

[2023-08-22] データセット Hugging Face をリリース

[2023-08-21] ChatHaruhi の技術レポートが arXiv に掲載されました。

中国語のチュートリアルビデオ

動画 説明
5 分でわかるロードマップ Bilibili で ModelScope の AI ハッカソン
DataWhale プレゼンテーション DataWhale の課題用に作成されたインストラクションビデオ
スクリプトツールチュートリアル yuki_builder スクリプトツールの使い方ステップバイステップガイド
文字データ形式チュートリアル 文字データ形式とテキストファイルから設定ファイルへの変換についてのチュートリアル。
40 分でわかる ModelScope チュートリアル 入門レベルのチュートリアル 40 分、ディスカッションと質疑応答のための追加 40 分

TODO と機能

TODO:

  • 22k ストーリーのオリジナルコーパスのモデルを訓練する
  • 技術レポートを arxiv で公開する
  • ローカル推論コードの公開
  • 52k データで学習したモデルをリリース
  • ローカルモデルと OpenAI の ChatHaruhi2.0 に対応、GitHub にアップデート
  • pip によるクイックインストール

栄誉

  • 🏆 ModelScope コミュニティ主催、Alibaba Cloud と NVIDIA 共催、天地(top3)共催の Create@AI ハッカソンで Chat Haruhi Suzumiya が準優勝、動画

  • 🏆 CAAI 8th-Big Data and Social Computing で 2 位(top3)を受賞し、7月17日に口頭発表を行います: 8th China National Conference, BDSC 2023, Urumqi, China, July 15-17, 2023 詳細はこちら

スポンサーシップ

Chat Haruhi Suzumiya は CoT と同様の戦略を採用しており、通常の 10 ~ 20 倍の価格となっている。現在、API トークンはコミュニティの寄付によって支えられています。

また、GPU(A100、A800)を積極的に募集しています。ご寄付いただける方はご連絡ください。Chat Haruhi Suzumiya の運営を継続するためのご支援に大変感謝いたします。

Luotuo プロジェクトのスポンサーにご興味のある方は、主要プロジェクトをクリックするか、スポンサーフォームをご覧ください。

トップに戻る

コントリビューター

  • Cheng Li@SenseTimeは、プロジェクト全体を計画し、ほとんどの機能を設計・実装した。

  • Ziang Leng@SenseTimeは、ChatHaruhi1.0 の全体的なトレーニング、データ生成、バックエンドアーキテクチャの設計と実装。

  • Chenxi Yan@Chengdu University of Information Technologyは、ChatHaruhi1.0 バージョンのバックエンドの実装とメンテナンス。

  • Junyi Shen@Zhejiang Universityは、トレーニングコードを実装し、トレーニングデータセットの生成に参加した。

  • Hao Wangは、My Own Swordsman の脚本データを収集し、拡張データの生成に参加した。

  • Weishi MI@Tsinghua Universityは、データ増強に参加した。

  • Aria Fei@BJUTは、スクリプトツールのASR機能を実装し、Openness-Aware Personality 論文プロジェクトに参加した。

  • Xiaoyang Feng@Nanjing Agricultural Universityは、文字認識ツールを統合し、開放性を意識したパーソナリティ論文プロジェクトに参加した。

  • Song Yanは、big bang thoery のデータを収集。スクリプトのフォーマット変換を行った。

  • HaoSheng Wangは、スクリプトツールに声紋認識と tts-vits 音声合成を実装した。

  • Linkang Zhan@Case Western Reserve Universityは、 Genshin Impact からシステムプロンプトとストーリーのデータを収集した。

  • Yaokai Jiaは、Vue 版のフロントエンドを実装し、心理学プロジェクトでバートの GPU 抽出を実践した。

  • Pingyu Wu@Juncai Shuyunは、トレーニングコードの最初のバージョンの配備を手伝った。

  • Haozhen Sun@Tianjin Universityは、ChatHaruhi のモザイク画を描いた。

引用

このリポジトリのデータやコードを使用する場合は、リポジトリを引用してください。

@misc{li2023chatharuhi,
      title={ChatHaruhi: Reviving Anime Character in Reality via Large Language Model},
      author={Cheng Li and Ziang Leng and Chenxi Yan and Junyi Shen and Hao Wang and Weishi MI and Yaying Fei and Xiaoyang Feng and Song Yan and HaoSheng Wang and Linkang Zhan and Yaokai Jia and Pingyu Wu and Haozhen Sun},
      year={2023},
      eprint={2308.09597},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Star History Chart

もし、ChatHaruhi2.0 のインターフェースデザインなど、このプロジェクトに対するご意見があれば、ぜひお寄せください、 または本レポートの将来のバージョンに参考文献を追加したい場合は、issue を提出してください。