llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

ARQlalala · 2024-09-20T02:10:08Z

您好，我用llama3.1 8b训练32k的上下文，训练配置同readme中，但发现每个iter训练时间很长，llamafactory中用deepspeed 时间是36s，但用pai-megatron是60s；且loss比较大，lamafactory中用deepspeed 的loss是1左右，但用pai-megatron的loss是10左右；

tp和pp会带来这么大的区别吗

kkkeepgoing · 2024-11-12T08:34:18Z

请问是batch size8 global batch size1吗，我对应的是128和1，一个iteration要十分钟，算下好像和你速度差不多，请问现在有什么解决方法吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

ARQlalala commented Sep 20, 2024

kkkeepgoing commented Nov 12, 2024

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

llama3.1 8b训练32k的上下文模型，训练时间长、并且loss偏大 #348

Comments

ARQlalala commented Sep 20, 2024

kkkeepgoing commented Nov 12, 2024