Данные PDF в формате XML с использованием Python - PullRequest
0 голосов
/ 15 марта 2020

Извлечение текста из файлов PDF в python может быть сделано с использованием python различных пакетов, но я ищу решение для глубокого изучения? Насколько глубокое обучение можно использовать для извлечения текста в формате xml? Слышал, много раз глубокое обучение может быть использовано? Может ли кто-нибудь иметь какой-либо используемый случай и объяснить процесс?

1 Ответ

0 голосов

Проблема при разборе pdf заключается не в выводе, а в процессе анализа страницы. Поэтому, если вы проанализируете страницу, вы можете вывести результаты в любом формате, который вам нужен (это должно быть легко). Я бы предложил прочитать исходный код pdfminer ведьмы, я думаю, является наиболее изощренным, так что вы можете начать с того, как начать, и вы можете разобрать pdf. Что касается глубокого изучения, я думаю, что это будет сложно сделать, но да, у него есть приложение, как самая трудная проблема с файлами pdf это управление ориентацией текста, межстрочными интервалами, вертикальными или боковыми полями, полями слов и т. д. c. Удачи, если вы начинаете проект и всегда помните, что PDF - это зло.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...