Зачем использовать RecursiveParserWrapper вместо Parser для извлечения текста из изображений? - PullRequest
0 голосов
/ 25 июня 2018

Я использую TIKA и Tesseract для извлечения текста OCR из PDF-файлов, которые содержат отсканированные изображения. Мне удалось разобрать документы PDF, содержащие изображения, с помощью ResursiveParserWrapper вместо Parser, и он работает нормально, однако клиент хочет выполнить все конфигурации, связанные с Tesseract OCR, где-нибудь еще и использовать существующий код, чтобы извлекать извлечение текста OCR из всех поддерживаемых форматов.

Существующий код использует простой Parser для извлечения данных. Кто-нибудь может мне помочь и объяснить, почему мы используем RecursiveParserWrapper вместо обычного Parser, когда мы собираемся извлекать данные из изображений или файлов PDF, содержащих отсканированные изображения.

1 Ответ

0 голосов
/ 26 июня 2018

Есть 3 преимущества для RecursiveParserWrapper. 1) поддерживает метаданные из встроенных документов 2) записывает трассировки стека из исключений разбора во встроенных документах 3) легче определить, что пришло из основного документа, а что из встроенных документов / вложений

Если вас это не волнует, то вы должны иметь возможность извлечь один и тот же текст с помощью AutoDetectParser и RecursiveParserWrapper. Если вы видите разницу в извлеченном тексте, пожалуйста, откройте билет на JIRA от Tika.

Также обратите внимание, что если вы используете старую версию Tika (<1.15), вам необходимо предоставить Parser для встроенных документов в ParseContext для каждого анализа; если вы не сделаете этого в старых версиях, Tika не будет анализировать встроенные документы. </p>

...