Skip to content

sudy-super/coencoder_p0

Repository files navigation

coencoder_p0

環境構築

Important

注意: 記載してある手順は特に注釈がない限り全ノードで行ってください。

  1. venv
python -m venv train
source train/bin/activate
  1. レポジトリのクローン
git clone https://github.com/sudy-super/coencoder_p0.git
cd coencoder_p0
  1. 依存ライブラリのインストール
pip install git+https://github.com/huggingface/transformers.git
pip install accelerate sentencepiece wandb packaging wheel nvitop scikit-learn datasets
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
apt-get install ninja-build
pip install numpy==1.23.5 flash-attn deepspeed==0.15.4

※ 後述のbashファイル実行時にcpu_adamが初期化できないエラーが発生する可能性があります。ninja-buildのインストールで発生可能性を低減できますが、確実ではないので発生した場合は以下のリンクを参考に対処してください。

参考になりそうなdeepspeedのissueページ

実行 (マスターノードのみでの操作)

マスターノードや使用するノードを変えたい場合はbashファイル・ホストファイルを個別に編集してください。

また、wandbにログを記録したい場合はfinetune_default.pyまたはfinetune_ori_loader.pyの31行目に初期化処理を記述してください。

  • RoCEオフ、nvlinkオフ、独自データローダーを使用する場合:
bash train_normal.sh
  • RoCEオン、nvlinkオフ、独自データローダーを使用する場合:
bash train_r.sh
  • RoCEオン、nvlinkオン、独自データローダーを使用する場合:
bash train_r_n.sh
  • RoCEオン、nvlinkオン、デフォルトのデータローダーを使用する場合:
bash train_r_n_d.sh

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published