Question

Spark cluster Я использую 4 ядра и 4 экземпляра исполнителя. Размер данных таблицы Кассандры после фильтра составляет 6 ГБ. Чтение данных из этой таблицы Cassandra с использованием кода pyspark. Применение фильтра к ключам разделов (3 ключа разделов) происходит принудительный фильтр. Один из фильтров ключа раздела представляет собой список из 5000 значений. Это простое чтение занимает более 14 монет. Это ожидаемое время или мы можем достичь этого за меньшее время.

Код Pyspark для чтения из таблицы Cassandra занимает почти 14 минут, чтобы прочитать данные 6 ГБ.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Код Pyspark для чтения из таблицы Cassandra занимает почти 14 минут, чтобы прочитать данные 6 ГБ.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы