Spark, используйте локальный жесткий диск вместо hadoop - PullRequest
0 голосов
/ 12 июня 2019

Мне удалось запустить hadoop и spark, как объяснено в https://www.linode.com/docs/databases/hadoop/install-configure-run-spark-on-top-of-hadoop-yarn-cluster/

Однако, как новичок, я считаю, что запуск коротких примеров на локальных машинах намного проще.

Например, для кода airportsNameAndCityNames.saveAsTextFile("out/airports_by_latitude.text")

Проще взглянуть на /home/foo/out/airports_by_latitude.text, чем hdfs://node-master:9000/user/hadoop/out/airports_by_latitude.text, который я в настоящее время не знаю, как смотреть в моем редакторе.

Так что мой вопрос, есть ли способ использовать локальное хранилище (не hadoop) при запуске spark

Я обнаружил, что если я закомментирую HADOOP_HOME ниже (фактически обнуляя HADOOP_CONF_DIR), он, кажется, работает на локальном хранилище (не hasoop), но задаюсь вопросом, есть ли более элегантный способ.

export SPARK_HOME=/usr/local/spark
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native:$LD_LIBRARY_PATH
export PATH=$SPARK_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

1 Ответ

0 голосов
/ 12 июня 2019

Очень простой способ - явно указать файловую систему, в которой вы хотите прочитать:

sc.textFile("file:///home/foo/out/airports_by_latitude.text")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...