svtr2 疑难近似字符应该在什么时候加入训练？ #14523

nissansz · 2025-01-10T01:30:08Z

nissansz
Jan 10, 2025

svtr2 疑难近似字符应该在什么时候加入训练？

加入疑难近似字符前日志如下
[2025/01/10 08:46:42] ppocr INFO: epoch: [1/50], global_step: 800, lr: 0.000001, CTCLoss: 14.587288, NRTRLoss: 2.853578, loss: 18.047794, avg_reader_cost: 0.00208 s, avg_batch_cost: 0.18747 s, avg_samples: 2.35, ips: 12.53550 samples/s, eta: 26 days, 8:36:20, max_mem_reserved: 2097 MB, max_mem_allocated: 1821 MB
[2025/01/10 08:47:01] ppocr INFO: epoch: [1/50], global_step: 900, lr: 0.000001, CTCLoss: 28.381334, NRTRLoss: 3.626843, loss: 32.118370, avg_reader_cost: 0.00200 s, avg_batch_cost: 0.17118 s, avg_samples: 2.22, ips: 12.96876 samples/s, eta: 25 days, 23:04:52, max_mem_reserved: 2097 MB, max_mem_allocated: 1821 MB
[2025/01/10 08:47:19] ppocr INFO: epoch: [1/50], global_step: 1000, lr: 0.000001, CTCLoss: 18.424065, NRTRLoss: 2.977797, loss: 21.543367, avg_reader_cost: 0.00181 s, avg_batch_cost: 0.17177 s, avg_samples: 2.41, ips: 14.03078 samples/s, eta: 25 days, 15:38:51, max_mem_reserved: 2097 MB, max_mem_allocated: 1821 MB
[2025/01/10 08:48:30] ppocr INFO: cur metric, acc: 0.5641729542609956, norm_edit_dis: 0.8391193097812136, fps: 23.73929370291974

加入15%疑难近似字符后日志如下
[2025/01/10 07:08:17] ppocr INFO: epoch: [1/50], global_step: 800, lr: 0.000001, CTCLoss: 27.405363, NRTRLoss: 3.751744, loss: 31.468330, avg_reader_cost: 0.00612 s, avg_batch_cost: 0.18858 s, avg_samples: 2.42, ips: 12.83303 samples/s, eta: 24 days, 15:34:07, max_mem_reserved: 2086 MB, max_mem_allocated: 1817 MB
[2025/01/10 07:08:35] ppocr INFO: epoch: [1/50], global_step: 900, lr: 0.000001, CTCLoss: 34.598011, NRTRLoss: 4.159418, loss: 39.047333, avg_reader_cost: 0.00216 s, avg_batch_cost: 0.17124 s, avg_samples: 2.32, ips: 13.54832 samples/s, eta: 24 days, 10:37:32, max_mem_reserved: 2086 MB, max_mem_allocated: 1821 MB
[2025/01/10 07:08:54] ppocr INFO: epoch: [1/50], global_step: 1000, lr: 0.000001, CTCLoss: 25.757986, NRTRLoss: 3.991220, loss: 29.173361, avg_reader_cost: 0.00482 s, avg_batch_cost: 0.18058 s, avg_samples: 2.27, ips: 12.57071 samples/s, eta: 24 days, 9:39:15, max_mem_reserved: 2086 MB, max_mem_allocated: 1821 MB
[2025/01/10 07:10:51] ppocr INFO: cur metric, acc: 0.3422069543056807, norm_edit_dis: 0.6666195348935893, fps: 23.206885368755316

GreatV · 2025-01-10T01:39:39Z

GreatV
Jan 10, 2025
Maintainer

根据您提供的训练日志对比，我建议不要在训练初期就加入疑难近似字符。原因如下：

从训练效果来看：

不加入疑难近似字符时：acc达到0.5641，norm_edit_dis达到0.8391
加入15%疑难近似字符后：acc下降到0.3422，norm_edit_dis下降到0.6666

建议的加入时机：

建议在模型基本收敛，识别准确率相对稳定后再逐步加入疑难近似字符
可以采用渐进式方式：先用基础字符训练至一定准确率→再少量引入疑难字符(如5%)→观察效果后再逐步增加比例
避免一次性加入过多(如15%)疑难字符，这样可能会导致模型难以收敛

具体建议：

先用基础字符训练直到acc稳定在0.6以上
每次只增加约5%的疑难近似字符
每次加入新字符后，给予充分的训练轮次让模型适应
观察验证集指标变化，如果指标下降明显则适当调整策略

这样的渐进式训练策略可以帮助模型更好地学习处理疑难近似字符，同时保持对基础字符的良好识别能力。

Response generated by feifei-bot | claude-3-5-sonnet-latest

0 replies

nissansz · 2025-01-10T01:43:21Z

nissansz
Jan 10, 2025
Author

如果在预训练的svtr2模型上改变字典，增加到几万个字符，恢复训练，与全新训练几万个字符，哪种效果会好？

…

--------------------------------------------------------------------------------

------------------ 原始邮件 ------------------ 发件人: Wang Xin ***@***.***> 发送时间: 2025-01-10 09:40:01 收件人:PaddlePaddle/PaddleOCR ***@***.***> 抄送:nissanjp ***@***.***>,Author ***@***.***> 主题: Re: [PaddlePaddle/PaddleOCR] svtr2 疑难近似字符应该在什么时候加入训练？ (Discussion #14523) 根据您提供的训练日志对比，我建议不要在训练初期就加入疑难近似字符。原因如下：从训练效果来看：不加入疑难近似字符时：acc达到0.5641，norm_edit_dis达到0.8391 加入15%疑难近似字符后：acc下降到0.3422，norm_edit_dis下降到0.6666 建议的加入时机：建议在模型基本收敛，识别准确率相对稳定后再逐步加入疑难近似字符可以采用渐进式方式：先用基础字符训练至一定准确率→再少量引入疑难字符(如5%)→观察效果后再逐步增加比例避免一次性加入过多(如15%)疑难字符，这样可能会导致模型难以收敛具体建议：先用基础字符训练直到acc稳定在0.6以上每次只增加约5%的疑难近似字符每次加入新字符后，给予充分的训练轮次让模型适应观察验证集指标变化，如果指标下降明显则适当调整策略这样的渐进式训练策略可以帮助模型更好地学习处理疑难近似字符，同时保持对基础字符的良好识别能力。 Response generated by feifei-bot | claude-3-5-sonnet-latest — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

svtr2 疑难近似字符应该在什么时候加入训练？ #14523

{{title}}

Replies: 2 comments

{{title}}

{{title}}

Select a reply

svtr2 疑难近似字符应该在什么时候加入训练？ #14523

nissansz Jan 10, 2025

Replies: 2 comments

GreatV Jan 10, 2025 Maintainer

nissansz Jan 10, 2025 Author

nissansz
Jan 10, 2025

GreatV
Jan 10, 2025
Maintainer

nissansz
Jan 10, 2025
Author