-
Notifications
You must be signed in to change notification settings - Fork 1.6k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
金融研报的标题可能会被漏掉 #1308
Comments
同一页多个图表的情况,caption和footnote可能会匹配异常 @icecraft |
这个问题切换到另一个layout模型可以解决,但是图表和caption/footnote的匹配问题导致排序结果更加恶化了 @icecraft 可以一起看下 |
同一个文档,一开始使用在线demo时,识别效果很准确,换到modelscope后才出现匹配不准确的情况。标题漏掉是两边都会出现的。 |
两边的版本不同,后面更新了匹配逻辑,减少了漏匹概率,但是在多图页面增加了匹配错误率 |
还有一个问题,在modelscope上如果同一个文档点击convert多次的话,后续的识别似乎是将前一次版面识别之后的pdf作为输入,结果就是输出带上了前一次版面识别的颜色。 |
已修复 |
Description of the bug | 错误描述
在modelscope上传了一些金融研报进行测试,发现有些金融研报的标题可能会被忽略掉。
出现问题的PDF:
2023-04-10:宏观利率图表134:澳洲暂停加息,新西兰加息50基点.pdf
漏掉标题的截图:
How to reproduce the bug | 如何复现
直接在modelscope上传pdf即可复现
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.10.x
Device mode | 设备模式
cpu
The text was updated successfully, but these errors were encountered: