AWS Glue: Мне действительно нужен Crawler для нового контента? - PullRequest
0 голосов
/ 03 ноября 2018

Что я понимаю из документов AWS Glue, так это то, что взломщик поможет сканировать и находить новые данные. Тем не менее, я заметил, что после однократного сканирования, если новые данные поступают в S3, данные фактически уже обнаруживаются, когда я, например, запрашиваю каталог данных из Афины. Итак, могу ли я сказать, что мне не нужен сканер для сканирования каждый раз, когда добавляются новые данные, если только нет новых схем?

На самом деле, если я знаю схему файлов, я могу просто вручную создать таблицу и обойтись без сканера, я прав?

Ответы [ 2 ]

0 голосов
/ 08 ноября 2018

Если у вас есть схема, вам не нужно использовать сканер, и вы можете получить лучшие результаты (сканер предполагает, что столбцы разделов являются строками, например).

Как говорит Юрий, не забудьте запустить MSCK REPAIR TABLE или зарегистрировать новые разделы вручную.

MSCK может прерваться, если вы добавили много разделов. Если это так, продолжайте работать до тех пор, пока он не завершится нормально.

0 голосов
/ 03 ноября 2018

Если данные разделены по некоторым ключам (размещены в подпапках, например, /data/year=2018/month=11/day=2), вам нужен сканер для регистрации новых добавленных разделов (например, /day=3) в каталоге данных, чтобы иметь возможность запрашивать их через Athena .

Однако, если данные не разделены на части или попадают в уже зарегистрированные разделы, запускать сканер не нужно.

Кроме того, чтобы запустить сканер, вы можете обнаружить и зарегистрировать новые разделы, выполнив команду Athena MSCK REPAIR TABLE <table> или , зарегистрировав их вручную .

Самый простой способ создать таблицу в каталоге данных - запустить сканер. Но если вы знаете схему и имеете терпение составить CREATE TABLE запрос Athena или заполнить все поля с помощью Консоль AWS Glue , то вы также можете пойти по этому пути.

...