Я работаю над проектом прогнозирования временных рядов на R. Однако мне нужно получить свои данные из таблиц, расположенных в среде Hadoop. Я использую Sparklyr, чтобы добраться до этих столов. Но я понял странную проблему после окончания передачи данных.
Мой столбец дат сдвигается на один день, и я вижу данные 27.03.2017 в строке, представляющей 26.03.2017.
sc <- spark_connect(master = "yarn-client",
spark_home = "/usr/hdp/current/spark2-client/",
config = conf)
invoke(hive_context(sc), "sql", "USE mydb")
data <- tbl(sc, 'mydata_raw')
data.df <- data.frame(data)
filter(data.df, date == "2018-05-05")
date unit
<date> <int>
1 2018-05-04 1111
В моих таблицах ульев такой проблемы нет.