Question

Извлечение текста из файлов PDF в python может быть сделано с использованием python различных пакетов, но я ищу решение для глубокого изучения? Насколько глубокое обучение можно использовать для извлечения текста в формате xml? Слышал, много раз глубокое обучение может быть использовано? Может ли кто-нибудь иметь какой-либо используемый случай и объяснить процесс?

Ευάγγελος Γρηγορόπουλος · Answer 1 · 15 марта 2020

Проблема при разборе pdf заключается не в выводе, а в процессе анализа страницы. Поэтому, если вы проанализируете страницу, вы можете вывести результаты в любом формате, который вам нужен (это должно быть легко). Я бы предложил прочитать исходный код pdfminer ведьмы, я думаю, является наиболее изощренным, так что вы можете начать с того, как начать, и вы можете разобрать pdf. Что касается глубокого изучения, я думаю, что это будет сложно сделать, но да, у него есть приложение, как самая трудная проблема с файлами pdf это управление ориентацией текста, межстрочными интервалами, вертикальными или боковыми полями, полями слов и т. д. c. Удачи, если вы начинаете проект и всегда помните, что PDF - это зло.

Данные PDF в формате XML с использованием Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Данные PDF в формате XML с использованием Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы