Запустите скрипт awk для файла hdfs и сохраните файл результатов в hdfs - PullRequest
1 голос
/ 27 января 2020

У меня есть файл в формате hdf, на котором мне нужно запустить скрипт awk. Я бы тогда сохранил результат в другом месте hdfs. Одним из способов было бы скачать файл hdfs на локальном компьютере, а затем запустить awk-манипуляции. Другой способ - передать результаты команды cat из файла hdfs в awk.

Есть ли способ передать эту ответственность в каркас сокращения карт, поскольку эти файлы очень большие и содержат миллионы записей.

Я нашел эту статью об использовании потоковой передачи oop, но не могу найти потоковую флягу. https://dzone.com/articles/using-awk-and-friends-hadoop

1 Ответ

0 голосов
/ 28 января 2020

Конечно, вы можете использовать MapReduce (или в идеале Spark), чтобы прочитать файл и обработать его, как вам нужно.

hadoop-streaming можно было бы запустить awk, но я сомневаюсь, что есть подробные примеры использования этого против "фактического" кода.

...