Я использую DSE Analytics для анализа данных, 4 сервера EC2 m5ad.xlarge (4 ядра и 16 ГБ ОЗУ, 3 аналитики и 1 Cassandra)
2 постоянного тока, как это:
В Cassandra размер пространства ключей составляет около 9 ГБ, всего 20 миллионов строк (50 столбцов)
И запрос:
t0 = time()
df = exclusive_df.groupBy('id_store','id_area').agg(
F.sum("numberin").alias("total_people")
).orderBy("id_store")
df.show()
tt = str(time() - t0)
Потребовалось почти 10 минут для выполнения запроса, ЦП,память, как указано выше (не использовать все ресурсы).И этапы:
Я не знаю, что вызвало медленный запрос в этом случае, возможно, потому что я пропустил какую-то конфигурацию для рабочих, или не хватаетсерверов / разделов?