как подключить sparkcontext к CDH 6 на пряже - PullRequest
0 голосов
/ 04 февраля 2019

Я пытаюсь запустить простую функцию mllib (fpgrowth) из Java с удаленного компьютера в версии сообщества CDH 6.

по умолчанию я пытался подключиться так:

`SparkConf conf = new SparkConf().setAppName("FPGrowth").setMaster("spark://some ip:7077").set("spark.cores.max", "10");`

но соединение не удается, и я также проверил netstat -plnt, и на порту 7077 не прослушивается программа.

Есть ли новый способ подключения sparkcontext на CDH 6?я думаю, что теперь он интегрирован в пряжу, но как я могу подключиться к т и сделать sparkcontext?

спасибо

1 Ответ

0 голосов
/ 04 февраля 2019

Переключение из локального режима в кластерный режим в Spark, к сожалению, не так просто, но это хорошо документированный процесс.Вы также должны будете убедиться, что ваши файлы (если вы их используете) доступны с каждого исполнительного узла кластера, возможно, поместив их в HDFS.

Сначала вы должны убедиться, что клиент Hadoopнастроенный на машине, на которой вы выполняете код, и затем вы можете выполнить свой код.

Как правило, вы будете использовать spark-submit как в:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --driver-memory 4g \
    --executor-memory 2g \
    --executor-cores 1 \
    --queue thequeue \
    examples/jars/spark-examples*.jar \
    10

Но вы также должны иметь возможностьвыполните его так:

SparkSession spark = SparkSession.builder()
    .appName("app")
    .master("yarn")
    .getOrCreate();

Более подробную информацию вы найдете по адресу: https://spark.apache.org/docs/latest/running-on-yarn.html.

...