Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[事前学習] - 言語比率によるタスク性能の変化の調査 #92

Open
Sh1gechan opened this issue Dec 2, 2024 · 0 comments
Labels
pretrain Experiment of model pretrain

Comments

@Sh1gechan
Copy link

Overview

日本語・英語・コードの3種類の言語資源について、LLMの事前学習コーパス上の混合比を変化させると最終的にモデルにどういう影響が現れるかを調査する。

Details

モデルカードPR: https://github.com/llm-jp/model-cards/pull/{id}

言語資源の混合比を以下の式で定め、

$$ \begin{array}{rcl} m_J, m_E, m_C & \in & [0, 1] \\ m_J + m_E + m_C & = & 1 \end{array} $$

この凸包上から満遍なく点(=一つの混合比のセット)をサンプリングし、これを用いて事前学習コーパスの重みを計算、LLMの学習を行う。

Resources

  • 計算機
    • クラスタ: FIXME Sakura (Ishikari)
    • ノード種別: FIXME gpu-small (H100x8)
    • ノード台数: FIXME 32
  • コード
  • 入力データ:
    • {name}: {physical path}
  • 出力データ:
    • 保存先: {cluster}:/data/experiments/{number}
    • データ内訳:
      • {name}: xxx TB (バッファ容量を含む)
  • W&B ログ:
  • 開始日: YYYY-MM-DD
  • 終了予定日: YYYY-MM-DD (バッファ期間を含む)
@Sh1gechan Sh1gechan added the pretrain Experiment of model pretrain label Dec 2, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
pretrain Experiment of model pretrain
Projects
None yet
Development

No branches or pull requests

1 participant