FlexEval

Flexible evaluation tool for language models. Easy to extend, highly customizable!

FlexEval は言語モデル評価のためのツールです。以下のような評価を行うことができます。

その他のユースケースについては、ドキュメント（英語）を参照してください。

主な特徴

pip install flexeval

以下の例では、aio （AI王）というクイズに回答するタスクを使って、hugging face モデル sbintuitions/tiny-lm を評価します。

flexeval_lm \
  --language_model HuggingFaceLM \
  --language_model.model "sbintuitions/tiny-lm" \
  --eval_setup "aio" \
  --save_dir "results/aio"

（上に挙げているモデルはあくまでデバッグ用であり、性能は全く期待できません。お好きなモデルに切り替えて試してみてください！）

--saved_dir に結果が保存され、ファイル毎に以下の内容が含まれます。

コマンドライン引数や設定ファイルを指定することで、柔軟に評価設定を指定することができます。

Transformers のモデルの他にも、OpenAI ChatGPT や vLLM などの評価もサポートしています。また、実装されていないモデルも容易に追加することができるはずです！

flexeval_presets のコマンドで、aio 以外の利用可能な評価設定のプリセットを確認できます。一覧は Preset Configs で確認できます。
その他のタイプの評価設定に関しては Getting Started をご覧ください。
評価設定の詳細な指定方法については Configuration Guide を参照してください。
Sarashina の評価で、実際の設定ファイルの例を確認できます。