activeDf=spark.read.format("org.apache.spark.sql.cassandra").options(table='***', keyspace='**').load().filter(col('cl')=='DI').filter(col("date")==date1))
activeDf.count()
print(count)
Выше приведен ответ за 5,5 минут. У меня 3571941 записей для чтения. В пользовательском интерфейсе spark он отображает входные данные как 2,5 ГБ.
activeDf=spark.read.format("org.apache.spark.sql.cassandra").options(table='***', keyspace='**').load().filter(col('cl')=='DI').filter(col("date")==date1))
activeDf.cache()
activeDf.count()
print(count)
Но если я поставлю кеш () и посчитайте это, принимая 14 минут. И ввод в UI, показывая как 40 ГБ. У кого-нибудь есть представления об этом поведении.