Что делает AWS Glue Crawler - PullRequest
       9

Что делает AWS Glue Crawler

0 голосов
/ 04 декабря 2018

Я прочитал документацию по клею AWS: сканеры здесь: https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html, но до сих пор неясно, что именно сканер клея делает .Проходит ли Crawler ваши сегменты S3 и создает указатели на эти сегменты?

Когда в документах говорится «Выходные данные сканера состоят из одной или нескольких таблиц метаданных, которые определены в вашем каталоге данных».назначение этих таблиц метаданных?

Ответы [ 2 ]

0 голосов
/ 05 декабря 2018

Сканеры необходимы для анализа данных в указанном местоположении s3 и для создания / обновления каталога данных клея, который в основном является мета-хранилищем для фактических данных (аналогично Метастове Hive ).Другими словами, он сохраняет информацию о физическом расположении данных, его схеме, формате и разделах, что позволяет запрашивать фактические данные через Athena или загружать их в задания Glue.

Я бы предложил прочитать эта документация для лучшего понимания сканеров клея и, конечно, для некоторых экспериментов.

0 голосов
/ 04 декабря 2018

CRAWLER создает метаданные, которые позволяют GLUE и сервисам, таким как ATHENA, просматривать информацию S3 в виде базы данных с таблицами.То есть он позволяет вам создавать каталог клея.

Таким образом, вы можете видеть информацию, которую s3 имеет в качестве базы данных, состоящей из нескольких таблиц.

Например, если вы хотите создатьВ поисковике необходимо указать следующие поля:

База данных -> Имя базы данных. Роль службы. Сервисная роль / AWSGlueServiceRole. Выбранные классификаторы -> Указать классификатор.

...