Я хочу прочитать файл PDF, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только txt-файлы, так что есть ли возможность проанализировать PDF-файлы в txt.
Дайте мне предложение.
Простой способ - создать SequenceFile для хранения файлов PDF. SequenceFile - это двоичный формат файла. Вы можете сделать каждую запись в SequenceFile PDF. Для этого вы должны создать класс, производный от Writable , который будет содержать PDF и любые метаданные, которые вам нужны. Тогда вы можете использовать любую библиотеку java PDF, такую как PDFBox , для управления PDF-файлами.
Обработка файлов PDF в Hadoop может быть выполнена путем расширения класса FileInputFormat .Пусть класс, расширяющий его, будет WholeFileInputFormat.В классе WholeFileInputFormat вы переопределяете метод getRecordReader ().Теперь каждый PDF-файл будет получен как Индивидуальный входной сплит .Затем эти отдельные разбиения могут быть проанализированы для извлечения текста.Эта ссылка дает четкий пример понимания того, как расширить FileInputFormat.