Question

Мы переходим к AWS EMR / S3 и используем R для анализа (sparklyr библиотека).У нас есть данные о продажах 500 ГБ в S3, содержащие записи для нескольких продуктов.Мы хотим проанализировать данные по нескольким продуктам и хотим прочитать только часть файла в EMR.

Пока, насколько я понимаю, spark_read_csv извлечет все данные.Можно ли в R/Python/Hive читать данные только по интересующим нас продуктам?

Miguel A. Friginal · Answer 1 · 01 июня 2018

Короче говоря, выбор формата находится на противоположной стороне эффективного спектра.

Использование данных

Разделение на (partitionBy опция DataFrameWriter или правильная структура каталогов). Интересует.
Кластеризация (bucketByDataFrameWriter

в некоторых случаях может помочь сузить поиск до определенных разделов, но если filter(product == p1) очень избирательно, то выСкорее всего, вы смотрите не на тот инструмент.

В зависимости от требований:

Надлежащая база данных.
Хранилище данных на Hadoop.

может быть лучшим выбором.

Вам также следует подумать о выборе лучшего формата хранения (например, паркета).

Фильтрация данных при чтении из S3 в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтрация данных при чтении из S3 в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы