Мы пытаемся проанализировать наши PDF-файлы перед их копированием в папку HDFS. На самом деле мы ожидаем некоторого стандартного способа анализа PDF-файлов.
На данный момент мы опробовали ниже два разных типа пакетов и отсутствие согласованности в результатах.
pyPDF2
tika java
код образца Тика
from tika import parser
parserPDF = parser.from_file("sample.pdf")
Каков стандартный способ парсинга PDF в основной текст?