Предоставление определенных пользователем имен столбцов в клею AWS - PullRequest
0 голосов
/ 20 сентября 2018

У меня много паркетных файлов.Мне нужно прочитать их через Amazon Glue, а затем предоставить имена столбцов для таблицы, которая читается.

Проблема в том, что у паркета уже есть имена столбцов, которые считывает сканер, и отображает их в таблице.Можно ли указать имена столбцов для этих файлов паркета в клею

1 Ответ

0 голосов
/ 26 сентября 2018

Чтобы заменить обнаруженные имена столбцов собственными именами, вы можете:

  • Использовать одно из следующих встроенных преобразований в DynamicFrame
    • ApplyMapping - применяет декларативное сопоставление к этому DynamicFrame и возвращает новый DynamicFrame с примененными сопоставлениями.(исходный столбец, тип источника, целевой столбец, тип цели)
    • RenameField - переименовывает поле в этом DynamicFrame и возвращает новый DynamicFrame с переименованным полем.(oldName -> newName)

Подробнее см. в руководствах по программированию Scala или Python ETL.

Или попробуйте обновить имена полей каталога данных вручную, если вам не требуется непрерывный повторный обход данных (или, если вы это сделаете, можно запретить сканеру клея обновлять существующие таблицы каталога данных через конфигурацию сканера )).

В качестве альтернативы, если ваши требования более дискретны, доступно преобразование map для преобразования каждого DynamicRecord в DynamicFrame в новый DynamicRecord по вашему выбору.

...