Llamaparse sometimes translates non-English text to English in Markdown output #357

ilyav123 · 2024-08-19T14:03:17Z

Describe the bug
I am parsing Russian PDF documents and sometimes Llamaparse starts to translate the text to English in Markdown. I.e. the full document and all its pages are in Russian, but in the MD output 1 or 2 pages appear as a translation of the content to English. It happens not very often, like 1 page out of 100.

Example job ID: 655c1bde-2a4b-4b3d-8699-58135e35391b, page starting with md output "md": "# Additional Information on Oil and Gas Exploration" (it's page 57 of the original document but parsing was from page 7 (target_pages_list=7,8...))

Client:

Python Library

Options
parser = LlamaParse(parsing_instruction="Ты обязательно должен вернуть ВСЮ информацию и ВЕСЬ текст, содержащийся в документе. Таблицы должны быть возвращены в виде таблиц.",invalidate_cache=False,do_not_cache=False,verbose=True, language=Language.RUSSIAN,target_pages=comma_separated_pages,result_type=ResultType.JSON)
parser.get_json_result(filename)

ilyav123 added the bug Something isn't working label Aug 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Llamaparse sometimes translates non-English text to English in Markdown output #357

Llamaparse sometimes translates non-English text to English in Markdown output #357

ilyav123 commented Aug 19, 2024

Llamaparse sometimes translates non-English text to English in Markdown output #357

Llamaparse sometimes translates non-English text to English in Markdown output #357

Comments

ilyav123 commented Aug 19, 2024