Фильтрация данных при чтении из S3 в Spark - PullRequest
0 голосов
/ 30 мая 2018

Мы переходим к AWS EMR / S3 и используем R для анализа (sparklyr библиотека).У нас есть данные о продажах 500 ГБ в S3, содержащие записи для нескольких продуктов.Мы хотим проанализировать данные по нескольким продуктам и хотим прочитать только часть файла в EMR.

Пока, насколько я понимаю, spark_read_csv извлечет все данные.Можно ли в R/Python/Hive читать данные только по интересующим нас продуктам?

1 Ответ

0 голосов
/ 01 июня 2018

Короче говоря, выбор формата находится на противоположной стороне эффективного спектра.

Использование данных

  • Разделение на (partitionBy опция DataFrameWriter или правильная структура каталогов). Интересует.
  • Кластеризация (bucketByDataFrameWriter

в некоторых случаях может помочь сузить поиск до определенных разделов, но если filter(product == p1) очень избирательно, то выСкорее всего, вы смотрите не на тот инструмент.

В зависимости от требований:

  • Надлежащая база данных.
  • Хранилище данных на Hadoop.

может быть лучшим выбором.

Вам также следует подумать о выборе лучшего формата хранения (например, паркета).

...