Если вы посмотрите на метаданные файла PDF, то увидите, что это файл, созданный TeX (LaTeX) .Я бы посоветовал вам получить исходный файл LaTeX (вместо PDF) у того, кто создал этот документ, вместо того, чтобы пытаться распознать диаграммы в PDF.
По сути, возврат из этого LaTeX PDF обратно в документ на самом деле невозможен (без большой работы) из-за способа создания PDF-файлов.Вы можете подумать о том, чтобы попытаться превратить PDF обратно в документ, что-то вроде реинжиниринга программного обеспечения (как этот другой член Stack Overflow упоминает здесь в теме о переходе от PDF обратно к документу LaTeX): https://stackoverflow.com/a/1620020/10382707
Иногда, если я пытаюсь выполнить простое оптическое распознавание символов (OCR) в PDF-файлах, я пытаюсь загрузить их в Документы Google, чтобы увидеть, как работает механизм OCR при извлечении текста из документов PDF.GDocs OCR хорошо работает для PDF-файлов, которые отформатированы стандартным способом, но имеет тенденцию разбиваться на такие вещи, как таблицы, диаграммы и т. Д.
Если вы заинтересованы в превращении изображений математических уравнений в LaTeX, вы можете захотетьчтобы проверить этот аккуратный инструмент, который некоторые исследователи из Гарварда создали как часть Призыва к исследованиям OpenAI Это превратит изображение математического уравнения в LaTeX-нотацию .