Выдача данных таблицы Pyspark DB для отметки времени - PullRequest
0 голосов
/ 27 апреля 2020

Я использую приведенный ниже код для подключения к серверу DB2. Данные загружаются, но есть разница в значениях меток времени при сравнении источника с данными, загруженными с помощью pyspark.

>>> df = spark.read.format("jdbc") \
...     .option("url", URL) \
...     .option("driver", "com.ibm.db2.jcc.DB2Driver") \
...     .option("dbtable", TABLE) \
...     .option("user", USER) \
...     .option("password", pswd).load()
>>> df.show()
+----------------+--------------+-------------------+-------------------+
|             SEQ|          NAME|          STARTDATE|            ENDDATE|
+----------------+--------------+-------------------+-------------------+
|               1|September 1941|1941-09-01 00:00:00|1941-10-01 00:00:00|
|               2|  October 1941|1941-10-01 00:00:00|1941-11-01 00:00:00|
|               3|   August 1942|1942-08-01 00:00:00|1942-09-01 00:00:00|
|               4|September 1942|1942-09-01 00:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+

Actual Data:
+----------------+--------------+-------------------+-------------------+
|             SEQ|          NAME|          STARTDATE|            ENDDATE|
+----------------+--------------+-------------------+-------------------+
|               1|September 1941|1941-09-01 00:00:00|1941-10-01 01:00:00|
|               2|  October 1941|1941-10-01 01:00:00|1941-11-01 00:00:00|
|               3|   August 1942|1942-08-01 00:00:00|1942-09-01 01:00:00|
|               4|September 1942|1942-09-01 01:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+

Не могли бы вы подсказать, где все пошло не так? Нужно ли добавлять какие-либо спецификации при получении данных из БД?

...