Question

У меня есть файл в формате hdf, на котором мне нужно запустить скрипт awk. Я бы тогда сохранил результат в другом месте hdfs. Одним из способов было бы скачать файл hdfs на локальном компьютере, а затем запустить awk-манипуляции. Другой способ - передать результаты команды cat из файла hdfs в awk.

Есть ли способ передать эту ответственность в каркас сокращения карт, поскольку эти файлы очень большие и содержат миллионы записей.

Я нашел эту статью об использовании потоковой передачи oop, но не могу найти потоковую флягу. https://dzone.com/articles/using-awk-and-friends-hadoop

cricket_007 · Answer 1 · 28 января 2020

Конечно, вы можете использовать MapReduce (или в идеале Spark), чтобы прочитать файл и обработать его, как вам нужно.

hadoop-streaming можно было бы запустить awk, но я сомневаюсь, что есть подробные примеры использования этого против "фактического" кода.

Запустите скрипт awk для файла hdfs и сохраните файл результатов в hdfs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запустите скрипт awk для файла hdfs и сохраните файл результатов в hdfs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы