[マルチモーダルWG] - Mamba VLMモデル学習 #81

daichi1207 · 2024-11-17T16:00:25Z

Overview

既存のMLLM(LLaVA-phi)を教師モデルとしてSSM(Mamba)ベースのVLMへ蒸留を行います．

生徒モデル
- Vision Encoderは教師モデルのまま
- Projectorは同じアーキテクチャで教師モデルのパラメータで初期化
- Language Modelは親モデルのTransformer部分をMamba2で置き換える
- データは親モデルが使用した同じものを用いる

計算機
- クラスタ: mdx (llm-jp-nvlink)
- ノード種別: gpu (A100x8)
- ノード台数: 2
コード
- リポジトリ: FIXME https://github.com/{org}/{repo}
- コミット: FIXME xxxxxx
入力データ:
- llm-jp-nvlink:/model/dyashima/phimamba/playground/data/llava_v1_5_mix665k.json
出力データ:
- 保存先: llm-jp-nvlink:/model/experiments/0081_phimamba
- データ内訳:
  - checkpoint : 0.15 TB （バッファ容量を含む）
W&B ログ:
- https://wandb.ai/{team}/{project} FIXME
開始日: 2024/11/18
終了予定日: 2024-12-31 （バッファ期間を含む）

The text was updated successfully, but these errors were encountered:

daichi1207 added pretrain Experiment of model pretrain and removed pretrain Experiment of model pretrain labels Nov 17, 2024

daichi1207 self-assigned this Nov 20, 2024