Получение файлов деревьев из PDF (желательно с использованием Python) - PullRequest
0 голосов
/ 20 сентября 2018

Я хотел бы сделать серию файлов, содержащих деревья в этом PDF (http://mica.lif.univ -mrs.fr / d6.clean2-backup.pdf ).Имена файлов будут соответствующими номерами деревьев слева (t0, t1 и т. Д.).

Я пытался использовать python для извлечения соответствующей информации и деревьев, но у меня возникли проблемы.Чтобы быть точным, когда я пытался извлечь деревья в виде изображений (используя https://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html),, ни одно из деревьев не появилось (предположительно, потому что деревья не в правильном формате). Однако, когда я пытаюсь извлечь все это как текст (как https://www.geeksforgeeks.org/working-with-pdf-files-in-python/), деревья теряют все свое форматирование (и некоторую информацию, я думаю). Как я могу получить нужные мне файлы из этого PDF? Может ли это быть сделано в Python? Есть ли другой способ, которыйпроще?

Кроме того, веб-сайт (http://mica.lif.univ -mrs.fr / ), с которого я получил PDF, имеет деревья в другой форме (например: t27 S ## 1 # l# NP # 0 # 2 # l # s NP # 0 # 2 # r # s VP ## 3 # l # V ## 4 # l # h V ## 4 # r # h NP # 1 # 5 # l #s NP # 1 # 5 # r # s VP ## 3 # r # S ## 1 # r #). Есть ли хороший способ преобразовать эту форму в хороший визуальный элемент в виде деревьев?

Любая помощь в любом из этих подходов (или других, если у людей есть идеи) будет высоко ценится. Спасибо!

1 Ответ

0 голосов
/ 21 сентября 2018

Если вы посмотрите на метаданные файла PDF, то увидите, что это файл, созданный TeX (LaTeX) .Я бы посоветовал вам получить исходный файл LaTeX (вместо PDF) у того, кто создал этот документ, вместо того, чтобы пытаться распознать диаграммы в PDF.metadata of the pdf

По сути, возврат из этого LaTeX PDF обратно в документ на самом деле невозможен (без большой работы) из-за способа создания PDF-файлов.Вы можете подумать о том, чтобы попытаться превратить PDF обратно в документ, что-то вроде реинжиниринга программного обеспечения (как этот другой член Stack Overflow упоминает здесь в теме о переходе от PDF обратно к документу LaTeX): https://stackoverflow.com/a/1620020/10382707

Иногда, если я пытаюсь выполнить простое оптическое распознавание символов (OCR) в PDF-файлах, я пытаюсь загрузить их в Документы Google, чтобы увидеть, как работает механизм OCR при извлечении текста из документов PDF.GDocs OCR хорошо работает для PDF-файлов, которые отформатированы стандартным способом, но имеет тенденцию разбиваться на такие вещи, как таблицы, диаграммы и т. Д.

Если вы заинтересованы в превращении изображений математических уравнений в LaTeX, вы можете захотетьчтобы проверить этот аккуратный инструмент, который некоторые исследователи из Гарварда создали как часть Призыва к исследованиям OpenAI Это превратит изображение математического уравнения в LaTeX-нотацию .

...