Pyspark DB2 считывает неправильно данные часового пояса - PullRequest
0 голосов
/ 29 апреля 2020

Используя приведенный ниже код, я пытаюсь получить данные из таблицы DB2. После загрузки данных в сам датафрейм я получаю несоответствия значений меток времени для записей по сравнению с данными в исходной таблице.

>>> df = spark.read.format("jdbc") \
...     .option("url", URL) \
...     .option("driver", "com.ibm.db2.jcc.DB2Driver") \
...     .option("dbtable", TABLE) \
...     .option("user", USER) \
...     .option("password", pswd).load()
>>> df.show()
+----------------+--------------+-------------------+-------------------+
|             SEQ|          NAME|          STARTDATE|            ENDDATE|
+----------------+--------------+-------------------+-------------------+
|               1|September 1941|1941-09-01 00:00:00|1941-10-01 00:00:00|
|               2|  October 1941|1941-10-01 00:00:00|1941-11-01 00:00:00|
|               3|   August 1942|1942-08-01 00:00:00|1942-09-01 00:00:00|
|               4|September 1942|1942-09-01 00:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+

Actual Data:
+----------------+--------------+-------------------+-------------------+
|             SEQ|          NAME|          STARTDATE|            ENDDATE|
+----------------+--------------+-------------------+-------------------+
|               1|September 1941|1941-09-01 00:00:00|1941-10-01 01:00:00|
|               2|  October 1941|1941-10-01 01:00:00|1941-11-01 00:00:00|
|               3|   August 1942|1942-08-01 00:00:00|1942-09-01 01:00:00|
|               4|September 1942|1942-09-01 01:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+

Может кто-нибудь подсказать, в чем может быть проблема.

Спасибо, Амрута К

...