Использование Apache Lucene для анализа больших файлов PDF - PullRequest
0 голосов
/ 17 ноября 2011

Я пытаюсь найти лучший способ поиска / анализа набора больших файлов PDF.В настоящее время я использую PDFBox для преобразования моих файлов PDF в текстовые файлы.Затем я использую Lucene для индексации этих текстовых файлов и поиска информации.Я сталкиваюсь с некоторыми проблемами, используя этот подход.(Обратите внимание, что я использую обе эти технологии на базовом уровне, чтобы посмотреть, на что они способны).

Рассмотрим следующую строку из моего PDF-файла, которая дает общий итог всех столбцов.Каждый столбец содержит пару значений, общая сумма которых отображается следующим образом.

    Grand Total  $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
                 $10.00    $5.15   $25.60 $0.00 $2.69 $0.00  $0.00 $0.00 $3,768.17

Когда я преобразовываю свой файл PDF в текстовый файл с помощью TextStripper из PDFBox, строка выше из файла PDF преобразуется в следующий текст в текстовом файле.

    58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17

Как видно из текстового файла выше, данные разбросаны по метке Grand Total.Поэтому становится трудно получить общую информацию, поскольку отступы из файла PDF не сохраняются в текстовом файле.

Поэтому я хотел бы знать, есть ли способ преобразовать файл PDF в текстовый файл, чтобы текстовый файл сохранял отступы / формат из файла PDF.Я также хотел бы знать, является ли Lucene хорошей идеей для достижения моей цели или есть более простой и быстрый способ получения информации из набора больших файлов PDF?

1 Ответ

0 голосов
/ 17 ноября 2011

Можно попробовать Тика .(Обычно, когда люди извлекают данные из PDF-файлов в Lucene, они используют Tika.)

Есть ли более простой способ?У Solr сильная интеграция с Tika, что должно упростить индексирование документов PDF.(Solr - обертка вокруг Lucene.)

...