[事前学習] - v4モデル環境構築実験 #111

odashi · 2025-01-24T12:20:18Z

Overview

次期事前学習モデルのための環境構築を行います。

Llama 3.1 準拠の学習を行うためには、LLM-jp-3 よりも新しいバージョンのMegatronに導入された一部機能が必要となる。
このオプションが有効かつSakuraおよびABCI上で学習可能な設定の探索を行う。

計算機
- クラスタ: FIXME Sakura (Ishikari)
- ノード種別: FIXME gpu-small (H100x8)
- ノード台数: FIXME 32
コード
- リポジトリ: FIXME https://github.com/{org}/{repo}
- コミット: FIXME xxxxxx
入力データ:
- {name}: {physical path}
出力データ:
- 保存先: {cluster}:/data/experiments/{number}
- データ内訳:
  - {name}: xxx TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: YYYY-MM-DD
終了予定日: YYYY-MM-DD （バッファ期間を含む）

The text was updated successfully, but these errors were encountered:

odashi added the pretrain Experiment of model pretrain label Jan 24, 2025

odashi self-assigned this Jan 24, 2025

k141303 mentioned this issue Jan 27, 2025

[事前学習] - Megatron-LMサンプリング検証 #113

Closed