как создать внешнюю таблицу в кластере EMR и загрузить метаданные из двоичных / объектных файлов в Amazon S3 в виде отдельного столбца для каждого ключа метаданных - PullRequest
0 голосов
/ 08 февраля 2019

Я хочу использовать amazon EMR для анализа миллионов двоичных / объектных файлов, хранящихся в S3.Я могу создавать таблицы emr, используя text / csv файлы, хранящиеся в S3 bucket .Но я сталкиваюсь с необходимостью загрузки данных в таблицы amazon EMR / hive для двоичных / объектных файлов, чтобы я мог их проанализировать.

Будет очень много времени, если мы будем извлекать данные с использованием S3API и анализ их, поскольку есть миллионы ключей, которые нам нужно проанализировать.

Я создал таблицы EMR, но при извлечении данные не читаются в формате.

CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';

CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';

Я ожидаю данныхв читаемом формате в таблице EMR, так что я могу использовать запросы выбора таблицы улья для простого извлечения данных.

...