Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

科研论文正文中出现较多类似公式的符号时存在漏检 #1316

Open
WendaDeng opened this issue Dec 18, 2024 · 5 comments
Open
Labels
bug Something isn't working

Comments

@WendaDeng
Copy link

Description of the bug | 错误描述

在modelscope上检测科研论文时,发现如果正文中存在较多类似公式的符号时,会把一部分正文给漏掉
测试用的科研论文:
test2.pdf

出现的漏检情况:
pdf_pitfall10

上图中左边第2点下的(b)小点在识别结果中漏掉了部分正文内容。

使用layoutlmv3和doclayout_yolo版面模型都会出现这个问题,是否选择Enable table recognition(test)也不影响结果。

How to reproduce the bug | 如何复现

直接在modelscope上传文件即可复现

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.10.x

Device mode | 设备模式

cpu

@WendaDeng WendaDeng added the bug Something isn't working label Dec 18, 2024
@myhloli
Copy link
Collaborator

myhloli commented Dec 18, 2024

image
这块区域可能有点过于复杂了,db算法没办法很好的按行框住文本,这种目前是无解的

@myhloli
Copy link
Collaborator

myhloli commented Dec 18, 2024

如果能把行间距调大一些可能还有救,这个样本的行间距应该是太小了,行内公式又长又高,影响了文本的行级别的检测

@WendaDeng
Copy link
Author

好的,感谢!

@WendaDeng
Copy link
Author

如果能把行间距调大一些可能还有救,这个样本的行间距应该是太小了,行内公式又长又高,影响了文本的行级别的检测

能否在处理过程中通过放大pdf页尺寸的方式,间接达到行间距变大的效果?

@myhloli
Copy link
Collaborator

myhloli commented Dec 20, 2024

这个行间距指的是相对比例而言的,不是物理距离。简单放大可能不能取得更佳的效果。不过你可以调整paddleocr中的参数det_db_unclip_ratio,目前使用的是1.8,你可以尝试调到1.5以下看看能不能改善对line的分割

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants