Как загрузить файлы JPG, PDF в HBASE, используя SPARK? - PullRequest
1 голос
/ 09 мая 2019

У меня есть файлы изображений в HDFS, и они нужны мне для загрузки в HBase. Могу ли я использовать SPARK, чтобы сделать это вместо MapReduce? Если да, то как, пожалуйста, предложите. Я новичок в эко системе hadoop.

Я создал таблицу Hbase с типом MOB с порогом 10 МБ. Я застрял здесь о том, как загрузить данные с помощью командной строки оболочки. После некоторых исследований было несколько рекомендаций по использованию MapReduce, но они не были информативными.

1 Ответ

1 голос
/ 09 мая 2019

Вы можете использовать Apache Tika ... вместе с sc.binaryFiles(filesPath) форматами, поддерживаемыми Tika: форматы

из которых вам нужно

Форматы изображений. Класс ImageParser использует стандарт javax.imageio. возможность извлечения простых метаданных из графических форматов, поддерживаемых Платформа Java. Более сложные метаданные изображения доступны через Классы JpegParser и TiffParser, которые используют экстрактор метаданных библиотека для поддержки извлечения метаданных Exif из Jpeg и Tiff изображений. и

Формат переносимого документа Парсеры класса PDFParser Переносимый документ Форматируйте (PDF) документы, используя библиотеку Apache PDFBox.

Пример кода со Spark см. В мой ответ

другой пример кода ответа, данного здесь me для загрузки в hbase

...