Как бы вы это сделали?Блоки данных 4.1, Spark 2.3
Вам предоставлен двухколонный кадр данных: 1) 'dt
', строка, как показано.2) Строка 'tm
', как показано.Я добавил третий столбец для этого поста.
Ваша задача - создать столбец 3, 'dttm
', отметка времени, форматирование., Ведущие нули, точность и часовые пояса не так важны, как правильное объединение идентификаторов.'dt
' & 'tm
'.
Я использовал PySpark в этом посте, но я не женат на нем.
df1 = sqlContext.createDataFrame(
[
('2018-06-02T00:00:00','12:30:00 AM', '06-02-2018 00:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 AM', '11-15-2018 03:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 AM', '06-02-2018 10:30:00.000+0000')
,('2018-06-02T00:00:00','12:30:00 PM', '06-02-2018 12:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 PM', '11-15-2018 15:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 PM', '06-02-2018 22:30:00.000+0000')
]
,['dt', 'tm', 'desiredCalculatedResult']
)
Я прошел десятки и десятки идесятки примеров и попыток, и пока я не нахожу это окончательное работоспособное решение.