Я хочу использовать amazon EMR для анализа миллионов двоичных / объектных файлов, хранящихся в S3.Я могу создавать таблицы emr, используя text / csv файлы, хранящиеся в S3 bucket .Но я сталкиваюсь с необходимостью загрузки данных в таблицы amazon EMR / hive для двоичных / объектных файлов, чтобы я мог их проанализировать.
Будет очень много времени, если мы будем извлекать данные с использованием S3API и анализ их, поскольку есть миллионы ключей, которые нам нужно проанализировать.
Я создал таблицы EMR, но при извлечении данные не читаются в формате.
CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';
CREATE EXTERNAL TABLE myTable (key STRING, value INT) LOCATION 's3n://<bucket name>/<folder>/';
Я ожидаю данныхв читаемом формате в таблице EMR, так что я могу использовать запросы выбора таблицы улья для простого извлечения данных.