Pyspark: pyarrow.lib.ArrowInvalid: код 'utf-32-le' c не может декодировать байты в позиции 0-3: кодовая точка вне диапазона (0x110000) - PullRequest
2 голосов
/ 05 мая 2020

У меня есть фрейм данных вроде следующего

df.show(5, False)
+------------------------------------+-------------------+--------+-------+--------+
|ID                                  |timestamp          |accuracy|lat    |lon     |
+------------------------------------+-------------------+--------+-------+--------+
|00000059-eb17-4db6-8e46-0739205a7ca1|2020-01-01 11:51:43|1.0     |41.3128|-81.8566|
|00000387-5804-40b2-9196-5cfead4dc55b|2020-01-01 18:05:24|11.7    |29.4241|-98.4936|
|00000387-5804-40b2-9196-5cfead4dc55b|2020-01-01 20:11:23|15.7    |29.4241|-98.4936|
|00000387-5804-40b2-9196-5cfead4dc55b|2020-01-01 18:05:10|14.4    |29.4241|-98.4936|
|00000387-5804-40b2-9196-5cfead4dc55b|2020-01-01 18:06:02|12.4    |29.4241|-98.4936|
+------------------------------------+-------------------+--------+-------+--------+

Если я запускаю код, сохраняющий столбец ID, я получаю эту ошибку

pyarrow.lib.ArrowInvalid: 'utf-32-le' codec can't decode bytes in position 0-3: code point not in range(0x110000)
...