Я пытаюсь подключиться к своей базе данных кустов, используя JDBC через pyspark .Я не получаю никакой ошибки соединения, однако, я получаю пустой набор результатов.
Код
import pyspark
spark = pyspark.sql.SparkSession.builder.enableHiveSupport().getOrCreate()
properties = {"driver": "org.apache.hive.jdbc.HiveDriver", "fetchsize": "10"}
df = spark.read.format("jdbc")\
.option("driver", "org.apache.hive.jdbc.HiveDriver") \
.option("fetchsize", 10) \
.option("url", "jdbc:hive2://hive.mydomain:10000/temp")\
.option("dbtable", "test_spark_jdbc_connectivity")\
.option("user", "gaurang.shah") \
.option("password", "mypassword").load()
df.show()
Таблица содержит только две записи со следующей строкой
Testing
Testing 1
Результат: имя таблицыповторяется в результате.
+----------------------------------+
|test_spark_jdbc_connectivity.value|
+----------------------------------+
| test_spark_jdbc_c...|
| test_spark_jdbc_c...|
+----------------------------------+
Если я уберу следующие опции, я ничего не получу в базе данных.
.option("driver", "org.apache.hive.jdbc.HiveDriver") \
.option("fetchsize", 10) \
результат:
+----------------------------------+
|test_spark_jdbc_connectivity.value|
+----------------------------------+
+----------------------------------+