[事前学習] - 言語比率によるタスク性能の変化の調査 #92

Sh1gechan · 2024-12-02T17:25:21Z

Overview

日本語・英語・コードの3種類の言語資源について、LLMの事前学習コーパス上の混合比を変化させると最終的にモデルにどういう影響が現れるかを調査する。

言語資源の混合比を以下の式で定め、

$$ \begin{array}{rcl} m_J, m_E, m_C & \in & [0, 1] \\ m_J + m_E + m_C & = & 1 \end{array} $$

この凸包上から満遍なく点（＝一つの混合比のセット）をサンプリングし、これを用いて事前学習コーパスの重みを計算、LLMの学習を行う。

計算機
- クラスタ: FIXME Sakura (Ishikari)
- ノード種別: FIXME gpu-small (H100x8)
- ノード台数: FIXME 32
コード
- リポジトリ: FIXME https://github.com/{org}/{repo}
- コミット: FIXME xxxxxx
入力データ:
- {name}: {physical path}
出力データ:
- 保存先: {cluster}:/data/experiments/{number}
- データ内訳:
  - {name}: xxx TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: YYYY-MM-DD
終了予定日: YYYY-MM-DD （バッファ期間を含む）

The text was updated successfully, but these errors were encountered:

Sh1gechan added the pretrain Experiment of model pretrain label Dec 2, 2024