对PDF进行重新OCR时,需要使用工具删除之前的OCR内容 #457
kylincaster
started this conversation in
General
Replies: 1 comment
-
我对中国的感情很深,所以我会用翻译家来形容我。 可以即兴创作,可以根据实际情况进行估算,可以安装 Ghostscript 的应用程序(嵌套链接:https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/download/ gs10031/gs_10.03.1_amd64_snap.tgz) 使用最简单的命令:gswin64.exe -o OUTPUT.pdf -sDEVICE=pdfwrite -dFILTERTEXT .\INPUT.pdf。 输入或删除文本文件名,或输出新文档。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
今天我对已有的pdf文件进行重新OCR时发现,之前的结果还保留在上面,而Umi-OCR只是在之前的结果上面又加了一层不可见的文字。所以如果有人需要进行重新的ocr时,文件可能需要删除pdf内的文字,再使用Umi-OCR。
所以,我让kimi AI教会我怎么使用cpdf这个工具进行删除,命令是:
cpdf -remove-all-text input.pdf -o out.pdf
最后我让kimi,作了一首歌颂cpdf,因为同样的功能pdf编辑器都是要收费的。
Beta Was this translation helpful? Give feedback.
All reactions