Как выполнить пользовательский двоичный файл C ++ для файла HDFS - PullRequest
0 голосов
/ 26 мая 2019

У меня есть пользовательские двоичные файлы c ++, которые читают файл необработанных данных и записывают файл производных данных. Размер файлов в 100Gbs. Кроме того, я хотел бы обрабатывать несколько файлов по 100 ГБ параллельно и генерировать материализованное представление производных метаданных. Следовательно, парадигма сокращения карт кажется более масштабируемой.

Я новичок в экосистеме Hadoop. Я использовал Ambari для настройки кластера Hadoop на AWS. Я построил свои собственные двоичные файлы C ++ на каждом узле данных и загрузил файлы необработанных данных в HDFS. Каковы мои варианты выполнения этого двоичного файла в файлах HDFS?

1 Ответ

0 голосов
/ 27 мая 2019

Потоковая передача Hadoop - это самый простой способ запуска приложений, не относящихся к Java, в виде MapReduce.

Подробнее см. Потоковая передача Hadoop .

...