Question

У меня есть пользовательские двоичные файлы c ++, которые читают файл необработанных данных и записывают файл производных данных. Размер файлов в 100Gbs. Кроме того, я хотел бы обрабатывать несколько файлов по 100 ГБ параллельно и генерировать материализованное представление производных метаданных. Следовательно, парадигма сокращения карт кажется более масштабируемой.

Я новичок в экосистеме Hadoop. Я использовал Ambari для настройки кластера Hadoop на AWS. Я построил свои собственные двоичные файлы C ++ на каждом узле данных и загрузил файлы необработанных данных в HDFS. Каковы мои варианты выполнения этого двоичного файла в файлах HDFS?

tk421 · Answer 1 · 27 мая 2019

Потоковая передача Hadoop - это самый простой способ запуска приложений, не относящихся к Java, в виде MapReduce.

Подробнее см. Потоковая передача Hadoop .

Как выполнить пользовательский двоичный файл C ++ для файла HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выполнить пользовательский двоичный файл C ++ для файла HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы