Spark-Cassandra-Connector не работает для искровой отправки - PullRequest
1 голос
/ 20 мая 2019

Я использую спарк-кассандра-разъем для подключения к кассандре от искры.

Я могу успешно подключиться через Livy, используя приведенную ниже команду.

curl -X POST --data '{"file": "/my/path/test.py", "conf" : {"spark.jars.packages": "com.datastax.spark:spark-cassandra-connector_2.11:2.3.0", "spark.cassandra.connection.host":"myip"}}' -H "Content-Type: application/json" localhost:8998/batches

Также можно подключиться через pyspark в интерактивном режиме с помощью команды ниже

sudo pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:2.0.10 --conf spark.cassandra.connection.host=myip

Однако невозможно подключиться через spark-submit. некоторые из команд, которые я пробовал для того же самого, приведены ниже.

spark-submit test.py --packages com.datastax.spark:spark-cassandra-connector_2.11:2.3.2 --conf spark.cassandra.connection.host=myip этот не сработал.

Я пытался передать эти параметры, мои файлы python, используемые для spark-submit, все еще не работали.

conf = (SparkConf().setAppName("Spark-Cassandracube").set("spark.cassandra.connection.host","myip").set({"spark.jars.packages","com.datastax.spark:spark-cassandra-connector_2.11:2.3.0"))

sc = SparkContext(conf = conf) sqlContext = SQLContext(sc)

попытался передать эти параметры, также был использован ноутбук jupyter.

import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.datastax.spark:spark-cassandra-connector_2.11:2.3.0 --conf spark.cassandra.connection.host="myip" pyspark-shell'

Все потоки, которые я видел до сих пор, говорят о соединителе spark-cassandra с использованием spark-shell, но ничего особенного о spark-submit.

Используемая версия

Ливий: 0.5.0 Искра: 2.4.0 Кассандра: 3.11.4

1 Ответ

1 голос
/ 20 мая 2019

Не проверено, но наиболее вероятная причина в том, что вы указываете все параметры:

--packages com.datastax.spark:spark-cassandra-connector_2.11:2.3.2 \
  --conf spark.cassandra.connection.host=myip

после имени вашего скрипта: test.py - в этом случае spark-submit считает ихпараметры для самого скрипта, а не для spark-submit.Попробуйте переместить имя скрипта после опций ...

PS Подробнее см. Документация Spark ...

...