Question

Мы пытаемся проанализировать наши PDF-файлы перед их копированием в папку HDFS. На самом деле мы ожидаем некоторого стандартного способа анализа PDF-файлов.

На данный момент мы опробовали ниже два разных типа пакетов и отсутствие согласованности в результатах.

pyPDF2 tika java

код образца Тика

from tika import parser parserPDF = parser.from_file("sample.pdf")

Каков стандартный способ парсинга PDF в основной текст?

Каков стандартный способ анализа PDF с использованием Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Каков стандартный способ анализа PDF с использованием Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов