Код Pyspark для чтения из таблицы Cassandra занимает почти 14 минут, чтобы прочитать данные 6 ГБ. - PullRequest
0 голосов
/ 05 ноября 2019

Spark cluster Я использую 4 ядра и 4 экземпляра исполнителя. Размер данных таблицы Кассандры после фильтра составляет 6 ГБ. Чтение данных из этой таблицы Cassandra с использованием кода pyspark. Применение фильтра к ключам разделов (3 ключа разделов) происходит принудительный фильтр. Один из фильтров ключа раздела представляет собой список из 5000 значений. Это простое чтение занимает более 14 монет. Это ожидаемое время или мы можем достичь этого за меньшее время.

...