У меня есть столбец с именем datetime, представляющий собой строку вида
Month Name DD YYYY H:MM:SS,nnn AM/PM TZ
, где nnn - точность наносекунды, AM / PM говорит само за себя, а TZ - часовой пояс, например, MDT
* 1005.* Например:
Mar 18 2019 9:48:08,576 AM MDT
Mar 18 2019 9:48:08,623 AM MDT
Mar 18 2019 9:48:09,273 AM MDT
Точность наносекунды важна, так как записи очень близки по времени.TZ не является обязательным, поскольку все они находятся в одном часовом поясе, но в идеале хотели бы также это зафиксировать.
Может ли PySpark справиться с этим?Я попытался использовать unix_timestamp без удачи.
Редактировать
Пробовал
%sql
formatw = 'MMM dd yyyy H:mm:ss,SSS a z'
select to_date(string)
from table
Get error:
Error in SQL statement: ParseException:
mismatched input 'format' expecting {'(', 'SELECT', 'FROM', 'ADD', 'DESC', 'WITH', 'VALUES', 'CREATE', 'TABLE', 'INSERT', 'DELETE', 'DESCRIBE', 'EXPLAIN', 'SHOW', 'USE', 'DROP', 'ALTER', 'MAP', 'SET', 'RESET', 'START', 'COMMIT', 'ROLLBACK', 'MERGE', 'UPDATE', 'CONVERT', 'REDUCE', 'REFRESH', 'CLEAR', 'CACHE', 'UNCACHE', 'DFS', 'TRUNCATE', 'ANALYZE', 'LIST', 'REVOKE', 'GRANT', 'LOCK', 'UNLOCK', 'MSCK', 'EXPORT', 'IMPORT', 'LOAD', 'OPTIMIZE'}(line 1, pos 0)