Spark cluster Я использую 4 ядра и 4 экземпляра исполнителя. Размер данных таблицы Кассандры после фильтра составляет 6 ГБ. Чтение данных из этой таблицы Cassandra с использованием кода pyspark. Применение фильтра к ключам разделов (3 ключа разделов) происходит принудительный фильтр. Один из фильтров ключа раздела представляет собой список из 5000 значений. Это простое чтение занимает более 14 монет. Это ожидаемое время или мы можем достичь этого за меньшее время.