Нужно ли устанавливать Had oop, чтобы использовать все аспекты Pyspark? - PullRequest
0 голосов
/ 24 марта 2020

Я установил pyspark, но не установил какую-либо отдельную версию oop или spark.

Очевидно, под Windows pyspark необходим доступ к winutils.exe для Had oop для некоторых вещей. (например, запись файлов на диск). Когда pyspark хочет получить доступ к winutilis.exe, он ищет его в каталоге bin папки, указанной в переменной среды HADOOP_HOME (переменная пользователя). Поэтому я скопировал winutils.exe в каталог bin pyspark (.\site-packages\pyspark\bin) и указал HADOOP_HOME как .\site-packages\pyspark\. Это решило проблему получения сообщения об ошибке: Failed to locate the winutils binary in the hadoop binary path.

Однако, когда я запускаю сеанс Spark с использованием pyspark, я все равно получаю следующее предупреждение:

WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

Установка была oop и затем указание каталога установки для HADDOP_HOME предотвратило предупреждение. Была ли указана c версия oop для установки pyspark без ограничений?

1 Ответ

0 голосов
/ 24 марта 2020

Если oop установка не обязательна.

Spark - это только распределенный вычислительный движок.

Spark предлагает только вычисления и не имеет никакого хранилища. Но Spark интегрирован с огромным разнообразием систем хранения, таких как HDFS, Cassandra, HBase, Mon go DB, локальная файловая система и т. Д. c ....

Spark предназначен для работы в самых разных Платформы управления ресурсами, такие как Spark, Mesos, YARN, Local, Kubernetes и др. c ....

PySpark - это Python API поверх Spark для разработки приложений Spark в Python. Поэтому установка oop не является обязательной.

Примечание. Установка oop требуется только для запуска приложения Pyspark поверх YARN или для доступа к входу / выходу приложения Pyspark из / в HDFS / Hive / HBase или оба.

О размещенном вами предупреждении является нормальным. Так что игнорируй это.

...