Как получить доступ и управлять данными PDF-файла в Hadoop? - PullRequest
0 голосов
/ 15 февраля 2012

Я хочу прочитать файл PDF, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только txt-файлы, так что есть ли возможность проанализировать PDF-файлы в txt.

Дайте мне предложение.

Ответы [ 2 ]

2 голосов
/ 15 февраля 2012

Простой способ - создать SequenceFile для хранения файлов PDF. SequenceFile - это двоичный формат файла. Вы можете сделать каждую запись в SequenceFile PDF. Для этого вы должны создать класс, производный от Writable , который будет содержать PDF и любые метаданные, которые вам нужны. Тогда вы можете использовать любую библиотеку java PDF, такую ​​как PDFBox , для управления PDF-файлами.

0 голосов
/ 25 февраля 2012

Обработка файлов PDF в Hadoop может быть выполнена путем расширения класса FileInputFormat .Пусть класс, расширяющий его, будет WholeFileInputFormat.В классе WholeFileInputFormat вы переопределяете метод getRecordReader ().Теперь каждый PDF-файл будет получен как Индивидуальный входной сплит .Затем эти отдельные разбиения могут быть проанализированы для извлечения текста.Эта ссылка дает четкий пример понимания того, как расширить FileInputFormat.

...