Question

Что я понимаю из документов AWS Glue, так это то, что взломщик поможет сканировать и находить новые данные. Тем не менее, я заметил, что после однократного сканирования, если новые данные поступают в S3, данные фактически уже обнаруживаются, когда я, например, запрашиваю каталог данных из Афины. Итак, могу ли я сказать, что мне не нужен сканер для сканирования каждый раз, когда добавляются новые данные, если только нет новых схем?

На самом деле, если я знаю схему файлов, я могу просто вручную создать таблицу и обойтись без сканера, я прав?

markm46 · Answer 1 · 08 ноября 2018

Если у вас есть схема, вам не нужно использовать сканер, и вы можете получить лучшие результаты (сканер предполагает, что столбцы разделов являются строками, например).

Как говорит Юрий, не забудьте запустить MSCK REPAIR TABLE или зарегистрировать новые разделы вручную.

MSCK может прерваться, если вы добавили много разделов. Если это так, продолжайте работать до тех пор, пока он не завершится нормально.

Yuriy Bondaruk · Answer 2 · 03 ноября 2018

Если данные разделены по некоторым ключам (размещены в подпапках, например, /data/year=2018/month=11/day=2), вам нужен сканер для регистрации новых добавленных разделов (например, /day=3) в каталоге данных, чтобы иметь возможность запрашивать их через Athena .

Однако, если данные не разделены на части или попадают в уже зарегистрированные разделы, запускать сканер не нужно.

Кроме того, чтобы запустить сканер, вы можете обнаружить и зарегистрировать новые разделы, выполнив команду Athena MSCK REPAIR TABLE <table> или , зарегистрировав их вручную .

Самый простой способ создать таблицу в каталоге данных - запустить сканер. Но если вы знаете схему и имеете терпение составить CREATE TABLE запрос Athena или заполнить все поля с помощью Консоль AWS Glue , то вы также можете пойти по этому пути.

AWS Glue: Мне действительно нужен Crawler для нового контента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS Glue: Мне действительно нужен Crawler для нового контента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы