SparkSQL Гуру, я новичок в SparkSQL, хотя и не в SQL.У меня есть некоторый код, приведенный здесь в качестве примера.Я смотрю на меня так, как будто данные считываются во временную таблицу, где длительность составляет> 10. Затем выбирается поместить 3 столбца в другую временную таблицу, где продолжительность <20. Наконец, создается переменная для записи данных в другую.временная таблица.Кто-нибудь может подтвердить, правильно ли я прочитал?Если я не смогу, поправьте меня, пожалуйста. </p>
Заранее спасибо ...
val clickStream = spark
.read
.parquet("s3://mybucket/warehouse/click_stream")
val tmp = clickStream
.distinct
.where($"session_duration" > 10)
.select("session_id", "session_duration", "referal_url")
.distinct
.persist
val tmp2 = tmp.filter($"session_duration" < 20).cache
val session_duration = tmp2.repartition(1).write.csv("s3://mybucket/sandbox/session_duration")