Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

英文单词之间空格丢失 #1237

Open
dhr1997 opened this issue Dec 9, 2024 · 2 comments
Open

英文单词之间空格丢失 #1237

dhr1997 opened this issue Dec 9, 2024 · 2 comments
Labels
bug Something isn't working

Comments

@dhr1997
Copy link

dhr1997 commented Dec 9, 2024

Description of the bug | 错误描述

cpu上英文显示正常有空格,但是4090上没有空格是成串的。同时两个方式在处理同一篇pdf的时候,有同一个公式都解析成了感叹号的乱码(在这一页上的解析时间明显长于其他页码)我可以提供对应的pdf供验证。
_lwq_origin.pdf

How to reproduce the bug | 如何复现

所有的操作都是按照文档进行

Operating system | 操作系统

Linux

Python version | Python 版本

3.11

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cpu

@dhr1997 dhr1997 added the bug Something isn't working label Dec 9, 2024
@myhloli
Copy link
Collaborator

myhloli commented Dec 10, 2024

没空格的原因找到了,这篇文档的字符坐标有严重偏差,空格的宽度只有0.2不说,高度只有2.2,相比之下,正常的英文字符的宽高为10和23,因此这些定位产生严重偏差的空格就被丢弃处理了。
对于这种情况,还是建议开启强制ocr模式以避免解析结果失真的情况。

公式乱码的原因是因为我们不支持包含中文的公式,这个目前没有好的解决办法。

@myhloli myhloli changed the title 同一份文件,我在cpu和gpu上的跑的结果不一样 英文单词之间空格丢失 Dec 12, 2024
@dhr1997
Copy link
Author

dhr1997 commented Dec 14, 2024

感谢回复,但是目前在那一篇pdf中,有相同格式的公式,比如算法10和算法11下面的公式格式都相同的,但是算法10解析会出现乱码,算法11则不会,这是模型权重的影响还是我的这篇pdf本身质量的问题呢。
@myhloli

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants