У меня есть пользовательские двоичные файлы c ++, которые читают файл необработанных данных и записывают файл производных данных. Размер файлов в 100Gbs. Кроме того, я хотел бы обрабатывать несколько файлов по 100 ГБ параллельно и генерировать материализованное представление производных метаданных. Следовательно, парадигма сокращения карт кажется более масштабируемой.
Я новичок в экосистеме Hadoop. Я использовал Ambari для настройки кластера Hadoop на AWS. Я построил свои собственные двоичные файлы C ++ на каждом узле данных и загрузил файлы необработанных данных в HDFS. Каковы мои варианты выполнения этого двоичного файла в файлах HDFS?