科研论文正文中出现较多类似公式的符号时存在漏检 #1316

WendaDeng · 2024-12-18T03:47:37Z

在modelscope上检测科研论文时，发现如果正文中存在较多类似公式的符号时，会把一部分正文给漏掉
测试用的科研论文：
test2.pdf

出现的漏检情况：

上图中左边第2点下的（b）小点在识别结果中漏掉了部分正文内容。

使用layoutlmv3和doclayout_yolo版面模型都会出现这个问题，是否选择Enable table recognition(test)也不影响结果。

直接在modelscope上传文件即可复现

Linux

3.10

0.10.x

cpu

myhloli · 2024-12-18T04:03:28Z

这块区域可能有点过于复杂了，db算法没办法很好的按行框住文本，这种目前是无解的

myhloli · 2024-12-18T04:05:32Z

如果能把行间距调大一些可能还有救，这个样本的行间距应该是太小了，行内公式又长又高，影响了文本的行级别的检测

WendaDeng · 2024-12-18T06:09:34Z

好的，感谢！

WendaDeng · 2024-12-20T06:35:28Z

如果能把行间距调大一些可能还有救，这个样本的行间距应该是太小了，行内公式又长又高，影响了文本的行级别的检测

能否在处理过程中通过放大pdf页尺寸的方式，间接达到行间距变大的效果？

myhloli · 2024-12-20T06:41:18Z

这个行间距指的是相对比例而言的，不是物理距离。简单放大可能不能取得更佳的效果。不过你可以调整paddleocr中的参数det_db_unclip_ratio,目前使用的是1.8，你可以尝试调到1.5以下看看能不能改善对line的分割

WendaDeng added the bug Something isn't working label Dec 18, 2024

Provide feedback