Я использую anguenot / pyspark-cassandra для чтения данных из таблиц cassandra:
from pyspark import SparkContext, SparkConf
from pyspark_cassandra import CassandraSparkContext,Row
username = 'testers'
password = 'password'
conf = SparkConf()
.setAppName("PySpark Cassandra Test")
.setMaster("spark://spark-master:7077")
.set("spark.cassandra.connection.host", "xxx.xxx.xxx.xxx")
.set("spark.cassandra.connection.host.port", "xxxx")
.set("spark.cassandra.connection.ssl.enabled", "true")
.set("spark.cassandra.connection.ssl.trustStore.path", "/path-to-truststore")
.set("spark.cassandra.connection.ssl.trustStore.password", "tpass")
.set("spark.cassandra.auth.username", username)
.set("spark.cassandra.auth.password", password)
sc = CassandraSparkContext(conf=conf)
keyspace='my_keyspace'
table='my_table'
rdd= sc.cassandraTable(keyspace, table).select("*").where("email_address=?", "abc@test.com").collect()
, но получил эту ошибку при последнем утверждении
com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
, затем я изменил последний оператор to:
rdd= sc.cassandraTable(keyspace, table).select("email_address").where("email_address=?", "abc@test.com").collect()
все еще получена та же ошибка. как это исправить? Я просто хочу выбрать строку с адресом электронной почты (первичный ключ) равным данному адресу электронной почты.