JDBC соединение Pyspark 2.3.0 возвращает пустой набор результатов - PullRequest
0 голосов
/ 21 февраля 2019

Я пытаюсь подключиться к своей базе данных кустов, используя JDBC через pyspark .Я не получаю никакой ошибки соединения, однако, я получаю пустой набор результатов.

Код

import pyspark
spark = pyspark.sql.SparkSession.builder.enableHiveSupport().getOrCreate()

properties = {"driver": "org.apache.hive.jdbc.HiveDriver", "fetchsize": "10"}
df = spark.read.format("jdbc")\
    .option("driver", "org.apache.hive.jdbc.HiveDriver") \
    .option("fetchsize", 10) \
    .option("url", "jdbc:hive2://hive.mydomain:10000/temp")\
    .option("dbtable", "test_spark_jdbc_connectivity")\
    .option("user", "gaurang.shah") \
    .option("password", "mypassword").load()

df.show()

Таблица содержит только две записи со следующей строкой

Testing
Testing 1 

Результат: имя таблицыповторяется в результате.

+----------------------------------+
|test_spark_jdbc_connectivity.value|
+----------------------------------+
|              test_spark_jdbc_c...|
|              test_spark_jdbc_c...|
+----------------------------------+

Если я уберу следующие опции, я ничего не получу в базе данных.

.option("driver", "org.apache.hive.jdbc.HiveDriver") \
.option("fetchsize", 10) \

результат:

+----------------------------------+
|test_spark_jdbc_connectivity.value|
+----------------------------------+
+----------------------------------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...