英文单词之间空格丢失 #1237

dhr1997 · 2024-12-09T08:39:55Z

cpu上英文显示正常有空格，但是4090上没有空格是成串的。同时两个方式在处理同一篇pdf的时候，有同一个公式都解析成了感叹号的乱码（在这一页上的解析时间明显长于其他页码）我可以提供对应的pdf供验证。
_lwq_origin.pdf

所有的操作都是按照文档进行

Linux

3.11

0.9.x

cpu

myhloli · 2024-12-10T03:38:40Z

没空格的原因找到了，这篇文档的字符坐标有严重偏差，空格的宽度只有0.2不说，高度只有2.2，相比之下，正常的英文字符的宽高为10和23，因此这些定位产生严重偏差的空格就被丢弃处理了。
对于这种情况，还是建议开启强制ocr模式以避免解析结果失真的情况。

公式乱码的原因是因为我们不支持包含中文的公式，这个目前没有好的解决办法。

dhr1997 · 2024-12-14T08:53:06Z

感谢回复，但是目前在那一篇pdf中，有相同格式的公式，比如算法10和算法11下面的公式格式都相同的，但是算法10解析会出现乱码，算法11则不会，这是模型权重的影响还是我的这篇pdf本身质量的问题呢。
@myhloli

dhr1997 added the bug Something isn't working label Dec 9, 2024

myhloli changed the title ~~同一份文件，我在cpu和gpu上的跑的结果不一样~~ 英文单词之间空格丢失 Dec 12, 2024

Provide feedback