Запустите простую программу подсчета слов, используя Apache Spark с python - PullRequest
0 голосов
/ 30 августа 2018

Я создал кластер Apache Spark (использующий предварительную сборку для распространения Hadoop), имеющий три машины, две из которых работают как вычислительный узел, а одна - как главный и вычислительный. Я установил все необходимое программное обеспечение, такое как Apache Hadoop, JAVA 8, Scala.

Теперь я хочу запустить простую программу подсчета слов в моем кластере. Я скопировал доступную программу на https://github.com/apache/spark/blob/master/examples/src/main/python/wordcount.py и сохранил ее в spark_wc.py.

Я запускаю этот скрипт с аргументом в качестве имени файла, который уже хранится в Hadoop HDFS, он выдает ошибку как

python spark_wc.py file.txt
2018-09-10 12:12:56 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN"
Traceback (most recent call last):
File "spark_wc.py", line 19, in <module>
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0]) 
File "/usr/lib/python2.7/site-packages/pyspark/sql/readwriter.py", line 328, in text
return self._df(self._jreader.text(self._spark._sc._jvm.PythonUtils.toSeq(paths)))
 File "/usr/lib/python2.7/site-packages/py4j/java_gateway.py", line 1257, in __call__
     answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/python2.7/site-packages/pyspark/sql/utils.py", line 69, in deco
    raise AnalysisException(s.split(': ', 1)[1], stackTrace)
 pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/ncra/file.txt;'

1 Ответ

0 голосов
/ 30 августа 2018

Видя ошибку, кажется, что путь отсутствует.

Я подозреваю, что вы сохранили свой файл в локальной файловой системе. Если это так, попробуйте добавить путь, как показано ниже

Файл: /yourpath/filename.csv

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...