SFT训练过程中的评估生成阶段（predict_with_generate=True时）能设置成padding_side="left"，但保持训练时还是"right"吗？ #9023

Androidest · 2025-08-26T00:59:20Z

Androidest
Aug 26, 2025

问题

基础模型: Qwen3, decoder-only transformer
训练阶段：SFT

我在TrainingArguments中设置了predict_with_generate=True，想着在训练过程中每隔 n 步评估一次生成，按最高‘eval_rouge-l’来保存模型。发现SFT在训练中和中间的评估生成中使用的都是一样的右侧填充。由于模型不是T5这种encoder+decoder的模型，decoder-only模型在评估生成时输入和生成的token之间隔着多个pad token。问题是：怎么设置训练时保持原来的右侧填充，但是途中介入的评估生成临时切换成左侧填充？支持吗？

我看到llamafactory和transformers里的data collator在做填充时都是以tokenizer.padding_side为准的，但好像没在这两个包里看到训练中评估生成时临时切换padding_side的地方。不知道是我自己看漏了，还是说本来没这个功能？🙏

复现方式

在LLaMA-Factory根目录下添加以下测试代码 test.py

from llamafactory.hparams import get_train_args
from modelscope import snapshot_download
from llamafactory.train.sft import run_sft

MODEL_ID = "Qwen/Qwen3-0.6B"
TRAIN_DATA_PATH = 'glaive_toolcall_zh_demo'
SAVE_PATH = './saves'

TRAIN_ARGS = {
    "model_name_or_path": snapshot_download(MODEL_ID),
    "stage": "sft",
    "do_train": True,
    "finetuning_type": "lora",
    "lora_rank": 16,
    "lora_alpha": 16,
    "dataset": TRAIN_DATA_PATH,
    "eval_dataset": TRAIN_DATA_PATH,
    "template": "qwen",
    "max_steps": 20,
    "per_device_train_batch_size": 1,

    # 训练中评估生成和保存
    "predict_with_generate": True, 
    "eval_strategy": "steps",
    "eval_steps": 10,
    "per_device_eval_batch_size": 2,
    "save_strategy":'best',
    "metric_for_best_model": "eval_rouge-l", 
    "greater_is_better": True,
    "output_dir": SAVE_PATH,
    "overwrite_output_dir": True,
}

def test_sft():
    model_args, data_args, training_args, finetuning_args, generating_args = get_train_args(TRAIN_ARGS)
    run_sft(
        model_args=model_args,
        data_args=data_args,
        training_args=training_args,
        finetuning_args=finetuning_args,
        generating_args=generating_args,
    )

test_sft()

然后在这个地方插入断点和打印未经修改的generated_tokens

LLaMA-Factory/src/llamafactory/train/sft/trainer.py

Line 107 in e22ac05

if generated_tokens is not None and self.args.predict_with_generate:

# 插入测试代码
print(self.processing_class.decode(generated_tokens[1]))
import pdb
pdb.set_trace()

打印结果是：输入文本和生成文本中间隔着多个pad token

断点处打印attention_mask也显式的是右侧填充（评估和训练一样都是右侧）

看起来transformers包也在警告这个生成问题

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

SFT训练过程中的评估生成阶段（predict_with_generate=True时）能设置成padding_side="left"，但保持训练时还是"right"吗？ #9023

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

SFT训练过程中的评估生成阶段（predict_with_generate=True时）能设置成padding_side="left"，但保持训练时还是"right"吗？ #9023

Uh oh!

Androidest Aug 26, 2025

问题

复现方式

在LLaMA-Factory根目录下添加以下测试代码 test.py

然后在这个地方插入断点和打印未经修改的generated_tokens

打印结果是：输入文本和生成文本中间隔着多个pad token

断点处打印attention_mask也显式的是右侧填充（评估和训练一样都是右侧）

看起来transformers包也在警告这个生成问题

Replies: 0 comments

Androidest
Aug 26, 2025