Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[v3-172B-exp2] - 172Bの継続事前学習 (Sakura) NVTE_FUSED_ATTN=0 #9

Open
k141303 opened this issue Aug 2, 2024 · 2 comments
Open
Assignees
Labels
pretrain Experiment of model pretrain

Comments

@k141303
Copy link

k141303 commented Aug 2, 2024

Overview

172B-exp2の事前学習をgcpからsakuraへ引っ越し。
こちらはFused Attentionを使用しない設定の環境を使用しています。
Fused Attentionを使用する実験 #14 でエラーが発生した場合にこちらの実験に切り替えます。

Details

モデルカードPR: https://github.com/llm-jp/model-cards/pull/13

How to Execute

llm-jp-172bグループのメンバー(kouta, odashi, kodama)は以下の手順でジョブを投入できます。

cd /home/shared/experiments/9
sbatch scripts/pretrain/scripts/v3-172b-exp2-sakura/sbatch.sh

権限の設定は以下のように行いました。

cd /home/shared/experiments
sudo chown -R :llm-jp-172b 9/
sudo chmod 775 -R 9/
sudo chmod g+s -R 9/
sudo setfacl -R -d -m u::rwx,g::rwx,o::r-x 9/

Resources

  • 計算機
    • クラスタ: Sakura (Ishikari)
    • ノード種別: gpu (H100x8)
    • ノード台数: 64
  • 環境構築
  • コード
  • 入力データ:
    • LLM-jp v3.1 コーパス: sakura:/data/llm-jp-corpus/v3.{0,1}.0
  • 出力データ:
    • チェックポイント : /home/shared/experiments/9/checkpoints/tp4-pp16-cp1
  • W&B ログ:
  • 開始日: 2024-08-08 13時
  • 終了予定日: 2024-12-10
@k141303 k141303 self-assigned this Aug 2, 2024
@k141303 k141303 changed the title [172B-exp2-TestRun] - 172Bの事前学習スクリプト動作確認 (Sakura) [v3-172B-exp2-TestRun] - 172Bの事前学習スクリプト動作確認 (Sakura) Aug 2, 2024
@odashi
Copy link
Member

odashi commented Aug 4, 2024

@k141303 gpu-smallは33台しかないので、gpuに変更お願いします。

@k141303
Copy link
Author

k141303 commented Aug 5, 2024

@odashi 修正しました。

@k141303 k141303 changed the title [v3-172B-exp2-TestRun] - 172Bの事前学習スクリプト動作確認 (Sakura) [v3-172B-exp2] - 172Bの継続事前学習 (Sakura) NVTE_FUSED_ATTN=0 Aug 7, 2024
@YumaTsuta YumaTsuta added the pretrain Experiment of model pretrain label Aug 19, 2024
@YumaTsuta YumaTsuta pinned this issue Aug 19, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
pretrain Experiment of model pretrain
Projects
None yet
Development

No branches or pull requests

3 participants