Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

金融研报的标题可能会被漏掉 #1308

Open
WendaDeng opened this issue Dec 17, 2024 · 7 comments
Open

金融研报的标题可能会被漏掉 #1308

WendaDeng opened this issue Dec 17, 2024 · 7 comments
Labels
bug Something isn't working

Comments

@WendaDeng
Copy link

Description of the bug | 错误描述

在modelscope上传了一些金融研报进行测试,发现有些金融研报的标题可能会被忽略掉。
出现问题的PDF:
2023-04-10:宏观利率图表134:澳洲暂停加息,新西兰加息50基点.pdf
漏掉标题的截图:
pdf_pitfall8

How to reproduce the bug | 如何复现

直接在modelscope上传pdf即可复现

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.10.x

Device mode | 设备模式

cpu

@WendaDeng WendaDeng added the bug Something isn't working label Dec 17, 2024
@WendaDeng
Copy link
Author

同一份报告,还有其他问题,比如:图表识别时把其他图表的名称错误识别进来
pdf_pitfall9
上面的识别结果,把图4的名称识别到图2之后,后续的图片和图片名称对不上号了

@myhloli
Copy link
Collaborator

myhloli commented Dec 17, 2024

同一页多个图表的情况,caption和footnote可能会匹配异常 @icecraft

@myhloli
Copy link
Collaborator

myhloli commented Dec 17, 2024

Description of the bug | 错误描述

在modelscope上传了一些金融研报进行测试,发现有些金融研报的标题可能会被忽略掉。 出现问题的PDF: 2023-04-10:宏观利率图表134:澳洲暂停加息,新西兰加息50基点.pdf 漏掉标题的截图: pdf_pitfall8

How to reproduce the bug | 如何复现

直接在modelscope上传pdf即可复现

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.10.x

Device mode | 设备模式

cpu

这个问题切换到另一个layout模型可以解决,但是图表和caption/footnote的匹配问题导致排序结果更加恶化了 @icecraft 可以一起看下

@WendaDeng
Copy link
Author

同一个文档,一开始使用在线demo时,识别效果很准确,换到modelscope后才出现匹配不准确的情况。标题漏掉是两边都会出现的。

@myhloli
Copy link
Collaborator

myhloli commented Dec 17, 2024

同一个文档,一开始使用在线demo时,识别效果很准确,换到modelscope后才出现匹配不准确的情况。标题漏掉是两边都会出现的。

两边的版本不同,后面更新了匹配逻辑,减少了漏匹概率,但是在多图页面增加了匹配错误率

@WendaDeng
Copy link
Author

还有一个问题,在modelscope上如果同一个文档点击convert多次的话,后续的识别似乎是将前一次版面识别之后的pdf作为输入,结果就是输出带上了前一次版面识别的颜色。

@myhloli
Copy link
Collaborator

myhloli commented Dec 20, 2024

还有一个问题,在modelscope上如果同一个文档点击convert多次的话,后续的识别似乎是将前一次版面识别之后的pdf作为输入,结果就是输出带上了前一次版面识别的颜色。

已修复

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants