Я пытаюсь найти лучший способ поиска / анализа набора больших файлов PDF.В настоящее время я использую PDFBox для преобразования моих файлов PDF в текстовые файлы.Затем я использую Lucene для индексации этих текстовых файлов и поиска информации.Я сталкиваюсь с некоторыми проблемами, используя этот подход.(Обратите внимание, что я использую обе эти технологии на базовом уровне, чтобы посмотреть, на что они способны).
Рассмотрим следующую строку из моего PDF-файла, которая дает общий итог всех столбцов.Каждый столбец содержит пару значений, общая сумма которых отображается следующим образом.
Grand Total $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17
Когда я преобразовываю свой файл PDF в текстовый файл с помощью TextStripper из PDFBox, строка выше из файла PDF преобразуется в следующий текст в текстовом файле.
58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17
Как видно из текстового файла выше, данные разбросаны по метке Grand Total.Поэтому становится трудно получить общую информацию, поскольку отступы из файла PDF не сохраняются в текстовом файле.
Поэтому я хотел бы знать, есть ли способ преобразовать файл PDF в текстовый файл, чтобы текстовый файл сохранял отступы / формат из файла PDF.Я также хотел бы знать, является ли Lucene хорошей идеей для достижения моей цели или есть более простой и быстрый способ получения информации из набора больших файлов PDF?