Я использую приведенный ниже код для подключения к серверу DB2. Данные загружаются, но есть разница в значениях меток времени при сравнении источника с данными, загруженными с помощью pyspark.
>>> df = spark.read.format("jdbc") \
... .option("url", URL) \
... .option("driver", "com.ibm.db2.jcc.DB2Driver") \
... .option("dbtable", TABLE) \
... .option("user", USER) \
... .option("password", pswd).load()
>>> df.show()
+----------------+--------------+-------------------+-------------------+
| SEQ| NAME| STARTDATE| ENDDATE|
+----------------+--------------+-------------------+-------------------+
| 1|September 1941|1941-09-01 00:00:00|1941-10-01 00:00:00|
| 2| October 1941|1941-10-01 00:00:00|1941-11-01 00:00:00|
| 3| August 1942|1942-08-01 00:00:00|1942-09-01 00:00:00|
| 4|September 1942|1942-09-01 00:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+
Actual Data:
+----------------+--------------+-------------------+-------------------+
| SEQ| NAME| STARTDATE| ENDDATE|
+----------------+--------------+-------------------+-------------------+
| 1|September 1941|1941-09-01 00:00:00|1941-10-01 01:00:00|
| 2| October 1941|1941-10-01 01:00:00|1941-11-01 00:00:00|
| 3| August 1942|1942-08-01 00:00:00|1942-09-01 01:00:00|
| 4|September 1942|1942-09-01 01:00:00|1942-10-01 00:00:00|
+----------------+--------------+-------------------+-------------------+
Не могли бы вы подсказать, где все пошло не так? Нужно ли добавлять какие-либо спецификации при получении данных из БД?