Question

Я хочу прочитать файл PDF, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только txt-файлы, так что есть ли возможность проанализировать PDF-файлы в txt.

Дайте мне предложение.

Steve Severance · Answer 1 · 15 февраля 2012

Простой способ - создать SequenceFile для хранения файлов PDF. SequenceFile - это двоичный формат файла. Вы можете сделать каждую запись в SequenceFile PDF. Для этого вы должны создать класс, производный от Writable , который будет содержать PDF и любые метаданные, которые вам нужны. Тогда вы можете использовать любую библиотеку java PDF, такую как PDFBox , для управления PDF-файлами.

WR10 · Answer 2 · 25 февраля 2012

Обработка файлов PDF в Hadoop может быть выполнена путем расширения класса FileInputFormat .Пусть класс, расширяющий его, будет WholeFileInputFormat.В классе WholeFileInputFormat вы переопределяете метод getRecordReader ().Теперь каждый PDF-файл будет получен как Индивидуальный входной сплит .Затем эти отдельные разбиения могут быть проанализированы для извлечения текста.Эта ссылка дает четкий пример понимания того, как расширить FileInputFormat.

Как получить доступ и управлять данными PDF-файла в Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить доступ и управлять данными PDF-файла в Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы