Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[事前学習] - MoE #80

Open
Taishi-N324 opened this issue Nov 12, 2024 · 0 comments
Open

[事前学習] - MoE #80

Taishi-N324 opened this issue Nov 12, 2024 · 0 comments
Assignees
Labels
pretrain Experiment of model pretrain

Comments

@Taishi-N324
Copy link
Member

Taishi-N324 commented Nov 12, 2024

Overview

Fine-grained + shared expertsの効果を検証する 100Bスクラッチのバジェットで検証をする

  1. top2, 8experts, 中間層サイズ=7168
  2. top2, 16experts, 中間層サイズ=7168
  3. top4, 16experts, 中間層サイズ=3584
    • Baseline1に対してのfine grained
  4. top8, 32experts, 中間層サイズ=1792
    • Baseline1に対してのfine grained
  5. パラメータをBaseline1と同じ
    • top4, 32experts, 中間層サイズ=3584
    • 2に対してのfine grained
  6. top8, 64experts, 中間層サイズ=1792
    • 2に対してのfine grained
  7. top3, 31experts + shared 1, 中間層サイズ=3584
    • 2に対してのfine grained + shared
  8. top7, 63experts + shared 1, 中間層サイズ=1792
    • 2に対してのfine grained + shared
  9. top1, 8experts, 中間層サイズ=7168
    • Switch Transformers
  10. top4, 32experts, 中間層サイズ=1792
  • baeline9に対するfinrgrained
  1. top8, 64experts, 中間層サイズ=896
  • OLMoE

Details

LLM-JP-MoE-2024年度後期実験計画 のexp3
Megatron-LMでの学習

Resources

  • 計算機
    • クラスタ: Sakura (Ishikari)
    • ノード種別: gpu-small (H100x8)
    • ノード台数: 状況に応じて
  • コード
  • 入力データ:
    • LLM-jp v3.1 コーパス: sakura:/data/llm-jp-corpus/v3.{0,1}.0
  • 出力データ:
    • 保存先:
      • `sakura:/data/experiments/0080
      • `sakura:/home/shared/experiments/0080
    • データ内訳:
      • checkpoint: FIXME TB (バッファ容量を含む)
  • W&B ログ:
  • 開始日: 2024-11-DD
  • 終了予定日: 2024-MM-DD (バッファ期間を含む)
@Taishi-N324 Taishi-N324 added the pretrain Experiment of model pretrain label Nov 12, 2024
@Taishi-N324 Taishi-N324 self-assigned this Dec 18, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
pretrain Experiment of model pretrain
Projects
None yet
Development

No branches or pull requests

1 participant