AWS Glue PySpark не может считать записи - PullRequest
0 голосов
/ 05 мая 2018

Я использую AWS Glue для извлечения данных из EC2 (Postgre) для преобразования и помещаю их в S3, когда я пытался извлечь 1 таблицу. Я получил сообщение об ошибке выглядит так:

enter image description here

Что я могу сделать? Я пытался удалить пустые поля или заполнить, но ни одна из этих работ не работает.

ОБНОВЛЕНИЕ: я даже выбрал столбец строкового типа, но все равно получил ту же ошибку: enter image description here

1 Ответ

0 голосов
/ 07 мая 2018

Можете ли вы попробовать, df.isnull().any() или df.isnull().sum(). Это должно помочь нам увидеть столбцы с неверными данными NaN. Также, пожалуйста, попробуйте получить количество записей с df.count(dropna = False) / df.na.drop(). Пожалуйста, обратитесь здесь , где более подробно объясняется обработка данных нулевого столбца.

Надеюсь, это поможет.

...