Я пытаюсь создать СДР из одного файла, который находится в локальной системе. Я использую Eclipse IDE на Windows. Ниже мой код:
from pyspark import SparkConf
from pyspark import SparkContext
conf = SparkConf().setAppName("FirstProgram").setMaster("Local")
sc = SparkContext("local")
load_data=sc.textFile("E://words.txt")
load_data.collect()
Ниже мой конфиг:
1) Spark 2.4.4
2) Python 3.7.4
Я пробовал варианты с именем пути к файлу, ноне повезло. Ниже приведено содержимое проекта, в котором файл хранится в исходной папке, но не может прочитать его. Тем не менее, я могу прочитать этот файл по тому же пути, то есть E:/words.txt
. Я думаю, что есть какая-то проблема с объектом SparkContext
.
Directory of E:\workspacewa\FirstSparkProject\Sample
10/12/2019 07:33 PM <DIR> .
10/12/2019 07:33 PM <DIR> ..
10/12/2019 07:34 PM 119 FileRead.py
10/12/2019 06:21 PM 269 FirstSpark.py
02/02/2019 09:22 PM 82 words.txt
10/12/2019 01:22 PM 0 __init__.py
Я переустанавливал все и теперь сталкиваюсь с новой ошибкой, как показано ниже:
Exception ignored in: <function Popen.__del__ at 0x000001924C5434C8>
Traceback (most recent call last):
File "C:\Users\siddh\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 860, in __del__
self._internal_poll(_deadstate=_maxsize)
File "C:\Users\siddh\AppData\Local\Programs\Python\Python37\lib\subprocess.py", line 1216, in _internal_poll
if _WaitForSingleObject(self._handle, 0) == _WAIT_OBJECT_0:
OSError: [WinError 6] The handle is invalid