Каков стандартный способ анализа PDF с использованием Python? - PullRequest
0 голосов
/ 30 апреля 2019

Мы пытаемся проанализировать наши PDF-файлы перед их копированием в папку HDFS. На самом деле мы ожидаем некоторого стандартного способа анализа PDF-файлов.

На данный момент мы опробовали ниже два разных типа пакетов и отсутствие согласованности в результатах.

pyPDF2 tika java

код образца Тика

from tika import parser parserPDF = parser.from_file("sample.pdf")

Каков стандартный способ парсинга PDF в основной текст?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...