Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

想请教一下关于布局检测中的输入问题 #1271

Open
Rezen1997 opened this issue Dec 12, 2024 · 3 comments
Open

想请教一下关于布局检测中的输入问题 #1271

Rezen1997 opened this issue Dec 12, 2024 · 3 comments

Comments

@Rezen1997
Copy link

您好,我看到doc.analyze()中是在处理pdf文件提取,其中的custom_model(img)在进行处理的时候,输入为img;并且后续的layout中的检测好像也是基于img去做的:layout_res = self.layout_model(image, ignore_catids=[])。
1.但是我只看到了二进制的pdf_bytes作为输入,没有发现将二进制的pdf转为img的操作,能烦请您解答一下吗?
2.我看到load_images_from_pdf()好像是在处理,但是好像该函数没有被使用?

result = custom_model(img)

image

@myhloli
Copy link
Collaborator

myhloli commented Dec 12, 2024

架构重构了,现在是在magic_pdf/data/utils.py这个里面

@Rezen1997
Copy link
Author

谢谢您!十分感谢您的解答!
我查看了您说的文件:
1.您所说的magic_pdf/data/utils.py文件中的函数转换图片函数,好像是用Pymupdf来进行转换的是吗?
1.当我查看UNIpipe.py、doc_analyze_by_custom_model.py以及pdf_extract_kit.py文件时,他们确实引用了magic_pdf/data/dataset.py,但是我没有在这几个文件中找到有dataset中的函数被调用,想请您指明在那个文件中的哪部分调用了相关函数,实现了二进制数据转图片吗?

@myhloli
Copy link
Collaborator

myhloli commented Dec 12, 2024

  1. 是的
  2. 有些方法是通过抽象类的方式使用的,不一定能简单看到调用,目前使用的逻辑就是magic_pdf/data/utils.py中的代码。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants