Клей AWS из файла в формате Excel - PullRequest
0 голосов
/ 09 мая 2019

У меня есть несколько файлов в формате .csv, которые мне нужно отсканировать из корзины S3 с помощью клея AWS, а затем загрузить в Aurora RDS с помощью задания клея.

Они были сохранены коллегой с помощью Excel, но так как Excel не поддерживает кодировку UTF-8, возможно, они кодируются в Win-1252?В любом случае, они не относятся к UTF-8 и неправильно классифицируются гусеничным клеем AWS.Преобразование файлов в xlsx или xls не улучшает ситуацию, так как Glue также не имеет для них классификатора.

Помимо сохранения в текст и редактирования каждого файла вручную, какие форматы можно сохранить из Excel, что AWS Glue позволитправильно ползать и разбирать?Кажется странным отсутствие совместимости с такой вездесущей программой, даже если это Excel ...

1 Ответ

0 голосов
/ 09 мая 2019

К сожалению, как объяснено в AWS Gle Key Concepts doc , текстовые форматы должны быть в UTF-8.

Я полагаю, что когда вы экспортируете файл в Excel с использованием текстового формата, вы можете использовать UTF-8 в качестве кодировки или, по крайней мере, раньше. Если вы сможете конвертировать в UTF-8 из Excel, это будет самый простой способ решить вашу проблему.

...