想请教一下关于布局检测中的输入问题 #1271

Rezen1997 · 2024-12-12T02:37:18Z

您好，我看到doc.analyze()中是在处理pdf文件提取，其中的custom_model（img）在进行处理的时候，输入为img；并且后续的layout中的检测好像也是基于img去做的：layout_res = self.layout_model(image, ignore_catids=[])。
1.但是我只看到了二进制的pdf_bytes作为输入，没有发现将二进制的pdf转为img的操作，能烦请您解答一下吗？
2.我看到load_images_from_pdf（）好像是在处理，但是好像该函数没有被使用？

MinerU/magic_pdf/model/doc_analyze_by_custom_model.py

Line 223 in 391a998

result = custom_model(img)

myhloli · 2024-12-12T03:32:38Z

架构重构了，现在是在magic_pdf/data/utils.py这个里面

Rezen1997 · 2024-12-12T06:21:05Z

谢谢您！十分感谢您的解答！
我查看了您说的文件：
1.您所说的magic_pdf/data/utils.py文件中的函数转换图片函数，好像是用Pymupdf来进行转换的是吗？
1.当我查看UNIpipe.py、doc_analyze_by_custom_model.py以及pdf_extract_kit.py文件时，他们确实引用了magic_pdf/data/dataset.py，但是我没有在这几个文件中找到有dataset中的函数被调用，想请您指明在那个文件中的哪部分调用了相关函数，实现了二进制数据转图片吗？

myhloli · 2024-12-12T16:13:51Z

是的
有些方法是通过抽象类的方式使用的，不一定能简单看到调用，目前使用的逻辑就是magic_pdf/data/utils.py中的代码。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

想请教一下关于布局检测中的输入问题 #1271

想请教一下关于布局检测中的输入问题 #1271

Rezen1997 commented Dec 12, 2024

myhloli commented Dec 12, 2024

Rezen1997 commented Dec 12, 2024

myhloli commented Dec 12, 2024

想请教一下关于布局检测中的输入问题 #1271

想请教一下关于布局检测中的输入问题 #1271

Comments

Rezen1997 commented Dec 12, 2024

myhloli commented Dec 12, 2024

Rezen1997 commented Dec 12, 2024

myhloli commented Dec 12, 2024