Короче говоря, выбор формата находится на противоположной стороне эффективного спектра.
Использование данных
- Разделение на (
partitionBy
опция DataFrameWriter
или правильная структура каталогов). Интересует. - Кластеризация (
bucketBy
DataFrameWriter
в некоторых случаях может помочь сузить поиск до определенных разделов, но если filter(product == p1)
очень избирательно, то выСкорее всего, вы смотрите не на тот инструмент.
В зависимости от требований:
- Надлежащая база данных.
- Хранилище данных на Hadoop.
может быть лучшим выбором.
Вам также следует подумать о выборе лучшего формата хранения (например, паркета).