[事前学習] - MoE 8x13B #94

Taishi-N324 · 2024-12-09T14:36:06Z

Overview

LLM-jp-3 13B のリリース済みcheckpointである、llm-jp/llm-jp-3-13bにDrop-Upcycling (r=0.5)を適用をし, 8x13Bのcheckpointを構築したのち, 2.1Tデータでの学習を行う

計算機
- クラスタ: Sakura (Ishikari)
- ノード種別: gpu-small (H100x8)
- ノード台数: 32
コード
- リポジトリ: https://github.com/llm-jp/Megatron-LM/tree/3a8b91c311ab96043c8f1a57294ec7ad3ee806a8
- コミット: 3a8b91c311ab96043c8f1a57294ec7ad3ee806a8
入力データ:
- LLM-jp v3.1 コーパス: sakura:/data/llm-jp-corpus/v3.{0,1}.0
出力データ:
- 保存先:
  - `sakura:/data/experiments/0094_v3-8x13b-exp1
  - `sakura:/home/shared/experiments/0094_v3-8x13b-exp1
- データ内訳:
  - checkpoint: FIXME TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/llm-jp/0094-v3-8x13b
開始日: 2024-12-13
終了予定日: 2024-MM-DD （バッファ期間を含む）

The text was updated successfully, but these errors were encountered:

Taishi-N324 added the pretrain Experiment of model pretrain label Dec 9, 2024

Taishi-N324 self-assigned this Dec 11, 2024