Я работаю над windows 10. Я установил spark, и цель - использовать pyspark. Я сделал следующие шаги:
- Я установил Python 3.7 с anaconda - Python был добавлен в
C:\Python37
- Я загружаю wintils из this ссылка - winutils добавлен к
C:\winutils\bin
- Я скачал spark - Искра была извлечена:
C:\spark-3.0.0-preview2-bin-hadoop2.7
- Я скачал Java 8 из AdoptOpenJDK
в системных переменных, я устанавливаю следующие переменные:
HADOOP_HOME
: C:\winutils
SPARK_HOME
: C:\spark-3.0.0-preview2-bin-hadoop2.7
JAVA_HOME
: C:\PROGRA~1\AdoptOpenJDK\jdk-8.0.242.08-hotspot
И, наконец, в системном пути я добавил:
- % JAVA_HOME% \ bin
- % SPARK_HOME% \ bin
- % HADOOP_HOME% \ bin
В терминале:
![enter image description here](https://i.stack.imgur.com/ChnCd.png)
![enter image description here](https://i.stack.imgur.com/u1yms.png)
Итак, я хотел бы знать, почему я получаю это предупреждение:
unable to load native-hadoop library... And why I couldn't bind on port 4040...
Наконец, внутри Jupyter Notebook, Я получаю следующую ошибку при попытке записи в файл Parquet. Это изображение показывает рабочий пример, а следующий показывает код с ошибками:
![enter image description here](https://i.stack.imgur.com/ojhrA.png)
А вот DataMaster__3.csv на моем диске:
![enter image description here](https://i.stack.imgur.com/CKa4x.png)
И DaterMaster_par2222.parquet:
![enter image description here](https://i.stack.imgur.com/eZR3l.png)
![enter image description here](https://i.stack.imgur.com/9YU5f.png)
Любая помощь очень ценится !!