[チューニング] - nemo-aligner での DPO 学習 #91

Taka008 · 2024-11-29T05:27:07Z

Overview

llm-jp-nemo-aligner で DPO の学習を行えるようにする

Details

llm-jp-nemo-aligner で DPO の学習を行えるように学習スクリプトを整備する

llm-jp-3-1.8b or llm-jp-3-13b を weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked で学習させる

Resources

計算機
- クラスタ: llm-jp-nvlink
- ノード種別: gpu
- ノード台数: 4
コード
- リポジトリ: FIXME https://github.com/{org}/{repo}
- コミット: FIXME xxxxxx
入力データ:
- {name}: {physical path}
出力データ:
- 保存先: {cluster}:/data/experiments/{number}
- データ内訳:
  - {name}: xxx TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: 2024-11-29
終了予定日: 2024-12-31

The text was updated successfully, but these errors were encountered:

Taka008 added pretrain Experiment of model pretrain tuning Experiment of model fine-tuning and removed pretrain Experiment of model pretrain labels Nov 29, 2024

Taka008 self-assigned this Nov 29, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[チューニング] - nemo-aligner での DPO 学習 #91

[チューニング] - nemo-aligner での DPO 学習 #91

Taka008 commented Nov 29, 2024

[チューニング] - nemo-aligner での DPO 学習 #91

[チューニング] - nemo-aligner での DPO 学習 #91

Comments

Taka008 commented Nov 29, 2024

Overview

Details

Resources