llm-jp · k141303 · Aug 24, 2024 · Aug 7, 2024 · Aug 8, 2024 · Aug 8, 2024
diff --git a/pretrain/scripts/v3-172b-exp2-sakura/README.md b/pretrain/scripts/v3-172b-exp2-sakura/README.md
@@ -2,7 +2,7 @@
 
 LLM-jp v3 172B exp2 の学習をSakuraクラスタ上で行うスクリプトです。
 
-Experiment: https://github.com/llm-jp/experiments/issues/9
+Experiment: https://github.com/llm-jp/experiments/issues/14
 
 ## スペック
 
@@ -11,19 +11,16 @@ Experiment: https://github.com/llm-jp/experiments/issues/9
 
 ## 実行方法
 
-事前に v3-megatron-sakura インストーラで `/data/experiments/{exp-id}/environment` に環境をインストールしたものとします。
+事前に v3-megatron-sakura インストーラで `/home/shared/experiments/{exp-id}/environment` に環境をインストールしたものとします。
 `{exp-id}` は登録時のIDを指定しますが、実験結果保全のため本実験のIDは指定しないでください。
-また `/data/experiments/{exp-id}/checkpoints` に以前のチェックポイントが保存されているものとします。
+また `/home/shared/experiments/{exp-id}/checkpoints` に以前のチェックポイントが保存されているものとします。
 
 ```shell
 cd /data/experiments/{exp-id}
 
-# 実行環境と同じ階層にスクリプトをコピー
-cp {this directory} .
-
 # ログ保存用ディレクトリ
 mkdir outputs
 
 # 実行
-sbatch sbatch.sh
+sbatch scripts/pretrain/scripts/v3-172b-exp2-sakura/sbatch.sh
 ```
diff --git a/pretrain/scripts/v3-172b-exp2-sakura/sbatch.sh b/pretrain/scripts/v3-172b-exp2-sakura/sbatch.sh
@@ -1,9 +1,10 @@
 #!/bin/bash
-#SBATCH --job-name=llama-2-172b-exp2
+#SBATCH --job-name=9_llama-2-172b-exp2
 #SBATCH --partition=gpu
 #SBATCH --nodes=64
 #SBATCH --gpus-per-node=8
 #SBATCH --ntasks-per-node=8
+#SBATCH --cpus-per-task=8
 #SBATCH --output=outputs/%x-%j.out
 #SBATCH --error=outputs/%x-%j.err
 
@@ -36,4 +37,4 @@ mpirun \
   -x MASTER_PORT=$MASTER_PORT \
   -x NUM_NODES=$NUM_NODES \
   -x NUM_GPUS_PER_NODE=$NUM_GPUS_PER_NODE \
-  bash train.sh
+  bash scripts/pretrain/scripts/v3-172b-exp2-sakura/train.sh
diff --git a/pretrain/scripts/v3-172b-exp2-sakura/train.sh b/pretrain/scripts/v3-172b-exp2-sakura/train.sh
@@ -53,8 +53,8 @@ TRAIN_STEPS=$((${LR_WARMUP_STEPS} + ${LR_DECAY_ITERS}))
 
 # model config
 TOKENIZER_MODEL=${ENV_DIR}/src/llm-jp-tokenizer/models/ver3.0/llm-jp-tokenizer-100k.ver3.0b1.model
-CHECKPOINT_LOAD_DIR=checkpoints/tp${TENSOR_PARALLEL_SIZE}-pp${PIPELINE_PARALLEL_SIZE}-cp${CONTEXT_PARALLEL_SIZE}
-CHECKPOINT_SAVE_DIR=checkpoints/tp${TENSOR_PARALLEL_SIZE}-pp${PIPELINE_PARALLEL_SIZE}-cp${CONTEXT_PARALLEL_SIZE}
+CHECKPOINT_LOAD_DIR=/home/shared/experiments/9/checkpoints/tp${TENSOR_PARALLEL_SIZE}-pp${PIPELINE_PARALLEL_SIZE}-cp${CONTEXT_PARALLEL_SIZE}
+CHECKPOINT_SAVE_DIR=/home/shared/experiments/9/checkpoints/tp${TENSOR_PARALLEL_SIZE}-pp${PIPELINE_PARALLEL_SIZE}-cp${CONTEXT_PARALLEL_SIZE}
 
 mkdir -p ${CHECKPOINT_SAVE_DIR}
 
@@ -220,7 +220,6 @@ VALID_DATA_PATH="" # Skip validation
 JOB_NAME="llama-2-172b-exp2-sakura"
 
 # run
-export NVTE_FUSED_ATTN=0
 python ${ENV_DIR}/src/Megatron-LM/pretrain_gpt.py \
   --tensor-model-parallel-size ${TENSOR_PARALLEL_SIZE} \
   --pipeline-model-parallel-size ${PIPELINE_PARALLEL_SIZE} \
@@ -241,11 +240,11 @@ python ${ENV_DIR}/src/Megatron-LM/pretrain_gpt.py \
   --train-iters ${TRAIN_STEPS} \
   --tokenizer-type Llama2Tokenizer \
   --tokenizer-model ${TOKENIZER_MODEL} \
-  ${CHECKPOINT_ARGS} \
+  --load ${CHECKPOINT_LOAD_DIR} \
   --save ${CHECKPOINT_SAVE_DIR} \
   --data-path ${TRAIN_DATA_PATH} \
   --split 1000,0,0 \
-  --data-cache-path cache \
+  --data-cache-path /home/shared/experiments/9/cache \
   --distributed-backend nccl \
   --init-method-std 0.02 \
   --lr ${LR} \
@@ -283,6 +282,5 @@ python ${ENV_DIR}/src/Megatron-LM/pretrain_gpt.py \
   --log-throughput \
   --wandb-name ${JOB_NAME} \
   --wandb-project "Llama-2-175B" \
-  --wandb-entity "nii-geniac" \
-  --use-gcp-dynamic-checkpointing \
+  --wandb-entity "nii-geniac"