Найти путь к файлу jar в GCP - PullRequest
0 голосов
/ 03 ноября 2019

Найдите путь файла jar hadoop-streaming-1.2.1.jar в Google File Platform.

https://github.com/devangpatel01/TF-IDF-implementation-using-map-reduce-Hadoop-python-

Я пытаюсь запустить этот mapreduce на GCP, используя hadoop,но я не могу найти путь hadoop-streaming-1.2.1.jar. Я попытался загрузить файл JAR вручную и загрузить его в hadoop, а затем запустить mapper1.py. Но я получаю ошибку, говоря, что путь неверен. Вышеуказанная программа была запущена на локальной машине. Как мне отредактировать команду для ее запуска на GCP?

hadoop jar /home/kirthyodackal/hadoop-streaming-1.2.1.jar -input hdfs: // cluster-29-m / input_prgs / input_prgs /input1 / 000000_0-выход hdfs: // cluster-29-m / input_prgs / input_prgs / output1 -mapper hdfs: //cluster-29-m/input_prgs/input_prgs/mapper1.py -reducer hdfs: // cluster-29-m/input_prgs/input_prgs/reducer1.py

1 Ответ

0 голосов
/ 14 ноября 2019

Я использовал другую программу Mapper-Reducer и мог запустить mapreduce. Я использовал код из https://github.com/SatishUC15/TFIDF-HadoopMapReduce#tfidf-hadoop и выполнил следующие команды в своем кластере GCP.

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseOne.py /home/kirthyodackal/ReducerPhaseOne.py -mapper "python MapperPhaseOne.py" -reducer "python ReducerPhaseOne.py" -input hdfs://cluster-3299-m/mapinput/inputfile -output hdfs://cluster-3299-m/mappred1

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseTwo.py /home/kirthyodackal/ReducerPhaseTwo.py -mapper "python MapperPhaseTwo.py" -reducer "python ReducerPhaseTwo.py" -input hdfs://cluster-3299-m/mappred1/part-00000 hdfs://cluster-3299-m/mappred1/part-00001 hdfs://cluster-3299-m/mappred1/part-00002 hdfs://cluster-3299-m/mappred1/part-00003 hdfs://cluster-3299-m/mappred1/part-00004  -output hdfs://cluster-3299-m/mappred2

> hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file /home/kirthyodackal/MapperPhaseThree.py /home/kirthyodackal/ReducerPhaseThree.py -mapper "python MapperPhaseThree.py" -reducer "python ReducerPhaseThree.py" -input hdfs://cluster-3299-m/mappred2/part-00000 hdfs://cluster-3299-m/mappred2/part-00001 hdfs://cluster-3299-m/mappred2/part-00002 hdfs://cluster-3299-m/mappred2/part-00003 hdfs://cluster-3299-m/mappred2/part-00004  -output hdfs://cluster-3299-m/mappredf

Следующая ссылка описывает, как я работал с MapReduce в GCP. https://github.com/kirthy21/Data-Analysis-Stack-Exchange-Hadoop-Pig-Hive-MapReduce-TFIDF

...