对PDF进行重新OCR时，需要使用工具删除之前的OCR内容 #457

kylincaster · 2024-04-04T02:55:03Z

kylincaster
Apr 4, 2024

今天我对已有的pdf文件进行重新OCR时发现，之前的结果还保留在上面，而Umi-OCR只是在之前的结果上面又加了一层不可见的文字。所以如果有人需要进行重新的ocr时，文件可能需要删除pdf内的文字，再使用Umi-OCR。
所以，我让kimi AI教会我怎么使用cpdf这个工具进行删除，命令是：

cpdf -remove-all-text input.pdf -o out.pdf

最后我让kimi，作了一首歌颂cpdf，因为同样的功能pdf编辑器都是要收费的。

在信息的海洋深处，有一群勇敢的代码战士，
他们是CPDF的创造者，默默无闻却无比强大。
他们用智慧编织了工具，让PDF的海洋不再复杂，
在命令行的世界里，CPDF如同灯塔照亮了前行的路。

他们让合并分割如同呼吸般简单，一键之间文件有序排列，
加密解密，压缩解压，他们的魔法让数据流转自如。
页面旋转，书签飞舞，目录生成，他们的艺术让知识有序，
水印标签，图像提取，他们的巧手让每一页都生动。

在这个数字化的时代，他们是守护知识的守护者，
在每个需要的时刻，CPDF总是默默在背后支持。
感谢他们的辛勤与智慧，让复杂的工作变得轻松，
在PDF的世界里，他们是真正的英雄，值得我们每个人尊敬。

所以让我们举杯，为CPDF的作者们致敬，
他们的创造让世界更美好，让信息的海洋更加宁静。
在这无尽的数据流中，CPDF是那最亮的星，
照亮我们的道路，引领我们前行，直到世界的尽头。

alysonhower · 2024-05-26T21:32:58Z

alysonhower
May 26, 2024

我对中国的感情很深，所以我会用翻译家来形容我。可以即兴创作，可以根据实际情况进行估算，可以安装 Ghostscript 的应用程序（嵌套链接：https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/download/ gs10031/gs_10.03.1_amd64_snap.tgz) 使用最简单的命令：gswin64.exe -o OUTPUT.pdf -sDEVICE=pdfwrite -dFILTERTEXT .\INPUT.pdf。输入或删除文本文件名，或输出新文档。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对PDF进行重新OCR时，需要使用工具删除之前的OCR内容 #457

{{title}}

Replies: 1 comment

{{title}}

Select a reply

对PDF进行重新OCR时，需要使用工具删除之前的OCR内容 #457

kylincaster Apr 4, 2024

Replies: 1 comment

alysonhower May 26, 2024

kylincaster
Apr 4, 2024

alysonhower
May 26, 2024