qwen2.5 1.5B 无法正常训练 #386

Traveller2001 · 2024-11-24T08:29:28Z

按照examples/qwen2_5/README.md一步步做无法正常启动训练。
PAI-Megatron-LM-240718/megatron/training/checkpointing.py 855行会报错：
即lm_head没有extra_state
但按之前issue的方式将strict设为False的话，训练的loss是从十几开始，这必然是不对的。
我找到一种替代方法：
就是将toolkits/model_checkpoints_convertor/qwen/hf2mcore_qwen2.5_convertor.sh中1.5B的tie_option=""更改为tie_option="--untie-embeddings-and-output-weights"。
examples/qwen2_5/run_mcore_qwen.sh这个里面的1.5B配置不做修改。
这样启动训练就正常了，loss从3左右开始下降。我想是toolkits/model_checkpoints_convertor/qwen/hf2mcore_qwen2_dense_and_moe_gqa.py这里面的对于lm head的处理有点问题

The text was updated successfully, but these errors were encountered:

Traveller2001 · 2024-11-24T09:52:11Z

这是tp=2，pp=2的时候报的错，tp=1，pp=1的时候没有报错，也不能以上述方式转换模式，否则有问题

yuleiqin · 2024-12-02T06:39:56Z

我在用72B的模型做SFT，使用的是idxmap方式+sequence packing，但是起步loss就是5.6左右；最后降到2左右就降不下去了，感觉很奇怪

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

qwen2.5 1.5B 无法正常训练 #386

qwen2.5 1.5B 无法正常训练 #386

Traveller2001 commented Nov 24, 2024 •

edited

Loading

Traveller2001 commented Nov 24, 2024 •

edited

Loading

yuleiqin commented Dec 2, 2024

qwen2.5 1.5B 无法正常训练 #386

qwen2.5 1.5B 无法正常训练 #386

Comments

Traveller2001 commented Nov 24, 2024 • edited Loading

Traveller2001 commented Nov 24, 2024 • edited Loading

yuleiqin commented Dec 2, 2024

Traveller2001 commented Nov 24, 2024 •

edited

Loading

Traveller2001 commented Nov 24, 2024 •

edited

Loading