Невозможно запустить простую программу pyspark - PullRequest
0 голосов
/ 12 октября 2019

Я пытаюсь создать СДР из одного файла, который находится в локальной системе. Я использую Eclipse IDE на Windows. Ниже мой код:

from pyspark import SparkConf
from pyspark import SparkContext

conf = SparkConf().setAppName("FirstProgram").setMaster("Local")
sc = SparkContext("local")
load_data=sc.textFile("E://words.txt")
load_data.collect()

Ниже мой конфиг:
1) Spark 2.4.4
2) Python 3.7.4

Я пробовал варианты с именем пути к файлу, ноне повезло. Ниже приведено содержимое проекта, в котором файл хранится в исходной папке, но не может прочитать его. Тем не менее, я могу прочитать этот файл по тому же пути, то есть E:/words.txt. Я думаю, что есть какая-то проблема с объектом SparkContext.

 Directory of E:\workspacewa\FirstSparkProject\Sample

10/12/2019  07:33 PM    <DIR>          .
10/12/2019  07:33 PM    <DIR>          ..
10/12/2019  07:34 PM               119 FileRead.py
10/12/2019  06:21 PM               269 FirstSpark.py
02/02/2019  09:22 PM                82 words.txt
10/12/2019  01:22 PM                 0 __init__.py

Я переустанавливал все и теперь сталкиваюсь с новой ошибкой, как показано ниже:

Exception ignored in: <function Popen.__del__ at 0x000001924C5434C8>
Traceback (most recent call last):
  File "C:\Users\siddh\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 860, in __del__
    self._internal_poll(_deadstate=_maxsize)
  File "C:\Users\siddh\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 1216, in _internal_poll
    if _WaitForSingleObject(self._handle, 0) == _WAIT_OBJECT_0:
OSError: [WinError 6] The handle is invalid

1 Ответ

0 голосов
/ 13 октября 2019

Я очистил все файлы temp, переустановил все и попробовал еще раз с приведенным ниже кодом, и он работает как чудо.

from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from pyspark import SparkConf

sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
load_data=sc.textFile("E://long_sample.txt")
load_data.foreach(print())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...