Первая программа Pyspark - PullRequest
0 голосов
/ 13 марта 2020

У меня проблемы с запуском моей первой программы Pyspark. я запускаю этот код на ноутбуке jypyter, который я настроил для использования вместо оболочки

import sys
from pyspark import SparkContext

lines = sc.textFile(sys.argv[1])
word_counts = lines.flatMap(lambda line: line.split(' '))\
                   .map(lambda word: (word,1)) \
                   .reduceByKey(lambda count1, count2: count1 + count2) \
                   .collect()

for (word,count) in woord_counts:
    print(word,count)

и получаю эту ошибку:


Py4JJavaError                             Traceback (most recent call last)
<ipython-input-7-727078dac5d6> in <module>()
      5 sc
      6 lines = sc.textFile(sys.argv[1])
----> 7 word_counts = lines.flatMap(lambda line: line.split(' '))                   .map(lambda word: (word,1))                    .reduceByKey(lambda count1, count2: count1 + count2)                    .collect()
      8 
      9 for (word,count) in word_counts:

/home/mouad/code/spark/python/pyspark/rdd.py in reduceByKey(self, func, numPartitions, partitionFunc)
   1696         [('a', 2), ('b', 1)]
   1697         """
-> 1698         return self.combineByKey(lambda x: x, func, func, numPartitions, partitionFunc)
   1699 
   1700     def reduceByKeyLocally(self, func):

/home/mouad/code/spark/python/pyspark/rdd.py in combineByKey(self, createCombiner, mergeValue, mergeCombiners, numPartitions, partitionFunc)
   1923         """
   1924         if numPartitions is None:
-> 1925             numPartitions = self._defaultReducePartitions()
   1926 
   1927         serializer = self.ctx.serializer

не могу вставить всю код ошибки, так что я сделаю это в следующих комментариях ..

я пробовал запустить этот скрипт через spark-submit, но я получаю следующую ошибку:


hduser_@Master:/home/mouad/code/spark/bin$ ./spark-submit ./wordcount.py ./test.txt
20/03/13 10:26:50 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Error executing Jupyter command '/home/mouad/code/spark/bin/./wordcount.py': [Errno 2] No such file or directory
log4j:WARN No appenders could be found for logger (org.apache.spark.util.ShutdownHookManager).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

Может кто-нибудь помочь мне пройти через это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...