模型微调与数据标注问题 #14536

whitewolf666 · 2025-01-13T08:50:18Z

whitewolf666
Jan 13, 2025

您好，我们的需求是给定一张包含正常数字和手写数字的图片，模型能够对其进行识别。我们尝试了en_PP-OCRv4_rec，其识别手写数字的能力似乎不是很理想。
因此我们想要微调en_PP-OCRv4_rec，来增强其识别手写数字的能力。那么在做数据标注的时候，对于一张同时包含手写字体和正常字体图片，需要标注正常字体吗，还是仅标注手写字体？
另外在模型微调训练时，数据集需要额外增加只包含正常数字和字符的样本吗？

Answered by GreatV

Jan 13, 2025

在微调 en_PP-OCRv4_rec 模型以增强其对手写数字的识别能力时，数据标注和数据集设计至关重要。以下是相关建议：

数据标注

同时包含手写字体和正常字体的图片：
- 建议标注所有文本，包括手写字体和正常字体。原因在于，OCR 模型需要学习区分不同字体（手写和正常字体）的特征。如果只标注手写部分，可能会导致模型在混合场景中无法正确处理未标注的部分。
标注策略：
- 如果图片中手写字体是主要关注对象，可以在标注中为手写字体分配更高的权重（通过数据增强或采样策略实现）。
- 标注的格式应尽可能清晰和规范，确保模型能准确理解输入与输出的对应关系。

数据集设计

添加额外数据：
- 建议增加包含正常数字和字符的样本。原因如下：
  - 如果训练集中只包含手写字体样本，模型可能会过拟合于手写场景，导致对正常字体的识别能力下降。
  - 通过包括正常字体样本，模型可以学习到丰富的特征，提升对混合场景的处理能力。
数据平衡：
- 确保训练集中手写字体和正常字体的样本比例适当。如果手写字体是主要目标，可以适当增加手写字体样本的比例。
数据增强：
- 对于手写字体，可以通过旋转、缩放、噪声添加等方式进行数据增强，模拟更多样化的手写场景。
- 同时，对正常字体的样本也可以进行常规的数据增强操作。

微调训练的注意事项

预训练模型的选择：
- 使用 en_PP-OCRv4_rec 的预训练模型作为初始化权重，这样能加速收敛并提升效果。
学习率调整：
- 微调时建议使用较小的学习率，以避免破坏预训练权重。
评估策略：
- 单独评估手写字体和正常字体的性能，确保模型在两类…

View full answer

GreatV · 2025-01-13T08:55:45Z

GreatV
Jan 13, 2025
Maintainer

在微调 en_PP-OCRv4_rec 模型以增强其对手写数字的识别能力时，数据标注和数据集设计至关重要。以下是相关建议：

数据标注

同时包含手写字体和正常字体的图片：
- 建议标注所有文本，包括手写字体和正常字体。原因在于，OCR 模型需要学习区分不同字体（手写和正常字体）的特征。如果只标注手写部分，可能会导致模型在混合场景中无法正确处理未标注的部分。
标注策略：
- 如果图片中手写字体是主要关注对象，可以在标注中为手写字体分配更高的权重（通过数据增强或采样策略实现）。
- 标注的格式应尽可能清晰和规范，确保模型能准确理解输入与输出的对应关系。

数据集设计

添加额外数据：
- 建议增加包含正常数字和字符的样本。原因如下：
  - 如果训练集中只包含手写字体样本，模型可能会过拟合于手写场景，导致对正常字体的识别能力下降。
  - 通过包括正常字体样本，模型可以学习到丰富的特征，提升对混合场景的处理能力。
数据平衡：
- 确保训练集中手写字体和正常字体的样本比例适当。如果手写字体是主要目标，可以适当增加手写字体样本的比例。
数据增强：
- 对于手写字体，可以通过旋转、缩放、噪声添加等方式进行数据增强，模拟更多样化的手写场景。
- 同时，对正常字体的样本也可以进行常规的数据增强操作。

微调训练的注意事项

预训练模型的选择：
- 使用 en_PP-OCRv4_rec 的预训练模型作为初始化权重，这样能加速收敛并提升效果。
学习率调整：
- 微调时建议使用较小的学习率，以避免破坏预训练权重。
评估策略：
- 单独评估手写字体和正常字体的性能，确保模型在两类数据上都能取得较好的效果。
- 在混合数据集上测试模型，验证其对混合场景的适应能力。

总结

在数据标注时，建议标注图片中所有的文本（包括手写字体和正常字体）。同时，训练数据集需要包含正常字体的样本，以确保模型在混合场景中的表现。通过微调训练，结合数据增强和合适的训练策略，可以显著提升 en_PP-OCRv4_rec 模型对手写数字的识别能力。

Response generated by feifei-bot | chatgpt-4o-latest

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

模型微调与数据标注问题 #14536

{{title}}

Replies: 1 comment

{{title}}

Select a reply

模型微调与数据标注问题 #14536

whitewolf666 Jan 13, 2025

数据标注

数据集设计

微调训练的注意事项

Replies: 1 comment

GreatV Jan 13, 2025 Maintainer

数据标注

数据集设计

微调训练的注意事项

总结

whitewolf666
Jan 13, 2025

GreatV
Jan 13, 2025
Maintainer