Я новичок в инфраструктуре hadoop map Reduce, и я подумываю об использовании карты hadoop Reduce для анализа моих данных. У меня есть тысячи больших файлов с разделителями, для которых я думаю написать карту, чтобы сократить количество разборов этих файлов и загрузить их в хранилище данных улья. Я написал парсер в Perl, который может анализировать эти файлы. Но я застрял в том же самом с Hadoop map Reduce
Например: у меня есть файл вроде
x = a y = b z = c .....
x = p y = q z = s .....
x = 1 z = 2 ....
и так далее
Теперь мне нужно загрузить этот файл в виде столбцов (x, y, z) в таблице кустов, но я не могу понять, могу ли я продолжить с ним. Любое руководство с этим было бы очень полезно.
Другая проблема в этом состоит в том, что в некоторых файлах поле y отсутствует. Я должен включить это условие в карту уменьшить работу. До сих пор я пытался использовать streaming.jar и предоставить мой parser.pl в качестве средства отображения в качестве входных данных для этого файла JAR. Я думаю, что это не способ сделать это :), но я просто пытался, если это сработает. Кроме того, я подумал об использовании функции загрузки Hive, но отсутствующий столбец создаст проблему, если я укажу regexserde в таблице улья.
Я потерян в этом сейчас, если бы кто-нибудь мог направить меня в этом, я был бы благодарен:)
С уважением,
Атул