Pyspark код для чтения с Кассандры. С кэшем требуется больше времени для чтения - PullRequest
0 голосов
/ 13 февраля 2020
activeDf=spark.read.format("org.apache.spark.sql.cassandra").options(table='***', keyspace='**').load().filter(col('cl')=='DI').filter(col("date")==date1))
activeDf.count()
print(count)

Выше приведен ответ за 5,5 минут. У меня 3571941 записей для чтения. В пользовательском интерфейсе spark он отображает входные данные как 2,5 ГБ.

activeDf=spark.read.format("org.apache.spark.sql.cassandra").options(table='***', keyspace='**').load().filter(col('cl')=='DI').filter(col("date")==date1))
activeDf.cache()
activeDf.count()
print(count)

Но если я поставлю кеш () и посчитайте это, принимая 14 минут. И ввод в UI, показывая как 40 ГБ. У кого-нибудь есть представления об этом поведении. enter image description here

enter image description here

...