Я использую спарк-кассандра-разъем для подключения к кассандре от искры.
Я могу успешно подключиться через Livy, используя приведенную ниже команду.
curl -X POST --data '{"file": "/my/path/test.py", "conf" : {"spark.jars.packages": "com.datastax.spark:spark-cassandra-connector_2.11:2.3.0", "spark.cassandra.connection.host":"myip"}}' -H "Content-Type: application/json" localhost:8998/batches
Также можно подключиться через pyspark в интерактивном режиме с помощью команды ниже
sudo pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:2.0.10 --conf spark.cassandra.connection.host=myip
Однако невозможно подключиться через spark-submit. некоторые из команд, которые я пробовал для того же самого, приведены ниже.
spark-submit test.py --packages com.datastax.spark:spark-cassandra-connector_2.11:2.3.2 --conf spark.cassandra.connection.host=myip
этот не сработал.
Я пытался передать эти параметры, мои файлы python, используемые для spark-submit, все еще не работали.
conf = (SparkConf().setAppName("Spark-Cassandracube").set("spark.cassandra.connection.host","myip").set({"spark.jars.packages","com.datastax.spark:spark-cassandra-connector_2.11:2.3.0"))
sc = SparkContext(conf = conf)
sqlContext = SQLContext(sc)
попытался передать эти параметры, также был использован ноутбук jupyter.
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.datastax.spark:spark-cassandra-connector_2.11:2.3.0 --conf spark.cassandra.connection.host="myip" pyspark-shell'
Все потоки, которые я видел до сих пор, говорят о соединителе spark-cassandra с использованием spark-shell, но ничего особенного о spark-submit.
Используемая версия
Ливий: 0.5.0
Искра: 2.4.0
Кассандра: 3.11.4