У меня есть разделенная на день структура каталогов s3 s3://userlogs/year=YYYY/month=MM/day=DD/
У меня есть серверы, постоянно заполняющие каталог текущего дня файлами - они добавляют около 6000 файлов каждый день. После добавления каждого файла я хочу обновить таблицу userlogs
в хранилище данных Glue, чтобы включить ее.
Проблема заключается в том, что клей AWS дает нам только возможность добавлять совершенно новые разделы (и соответствующие им каталоги). ) в таблицу с помощью команды типа
ALTER TABLE userlogs ADD
PARTITION (year = '2016', month = '01', day = '01) LOCATION 's3://userlogs/year=2016/month=01/day=02/'
Однако каждый раз, когда я запускаю эту команду, я предполагаю, что Glue должен сканировать все потенциально тысячи файлов в этом каталоге.
Что яочень бы понравился какой-нибудь метод / команда, которая бы выполняла следующие действия:
ALTER TABLE userlogs UPDATE
PARTITION (year = '2016', month = '01', day = '01) ADD FILE's3://userlogs/year=2016/month=01/day=02/todays_file_no_3423.parquet.gz'
Есть ли способ достичь этой цели, который не предполагает реструктуризацию того, как я храню свои данные?