We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
cpu上英文显示正常有空格,但是4090上没有空格是成串的。同时两个方式在处理同一篇pdf的时候,有同一个公式都解析成了感叹号的乱码(在这一页上的解析时间明显长于其他页码)我可以提供对应的pdf供验证。 _lwq_origin.pdf
所有的操作都是按照文档进行
Linux
3.11
0.9.x
cpu
The text was updated successfully, but these errors were encountered:
没空格的原因找到了,这篇文档的字符坐标有严重偏差,空格的宽度只有0.2不说,高度只有2.2,相比之下,正常的英文字符的宽高为10和23,因此这些定位产生严重偏差的空格就被丢弃处理了。 对于这种情况,还是建议开启强制ocr模式以避免解析结果失真的情况。
公式乱码的原因是因为我们不支持包含中文的公式,这个目前没有好的解决办法。
Sorry, something went wrong.
感谢回复,但是目前在那一篇pdf中,有相同格式的公式,比如算法10和算法11下面的公式格式都相同的,但是算法10解析会出现乱码,算法11则不会,这是模型权重的影响还是我的这篇pdf本身质量的问题呢。 @myhloli
No branches or pull requests
Description of the bug | 错误描述
cpu上英文显示正常有空格,但是4090上没有空格是成串的。同时两个方式在处理同一篇pdf的时候,有同一个公式都解析成了感叹号的乱码(在这一页上的解析时间明显长于其他页码)我可以提供对应的pdf供验证。
_lwq_origin.pdf
How to reproduce the bug | 如何复现
所有的操作都是按照文档进行
Operating system | 操作系统
Linux
Python version | Python 版本
3.11
Software version | 软件版本 (magic-pdf --version)
0.9.x
Device mode | 设备模式
cpu
The text was updated successfully, but these errors were encountered: