Новый для Spark SQL - PullRequest
       1

Новый для Spark SQL

0 голосов
/ 14 июня 2019

SparkSQL Гуру, я новичок в SparkSQL, хотя и не в SQL.У меня есть некоторый код, приведенный здесь в качестве примера.Я смотрю на меня так, как будто данные считываются во временную таблицу, где длительность составляет> 10. Затем выбирается поместить 3 столбца в другую временную таблицу, где продолжительность <20. Наконец, создается переменная для записи данных в другую.временная таблица.Кто-нибудь может подтвердить, правильно ли я прочитал?Если я не смогу, поправьте меня, пожалуйста. </p>

Заранее спасибо ...

val clickStream = spark
  .read
  .parquet("s3://mybucket/warehouse/click_stream")

val tmp = clickStream
  .distinct
  .where($"session_duration" > 10)
  .select("session_id", "session_duration", "referal_url")
  .distinct
  .persist

val tmp2 = tmp.filter($"session_duration" < 20).cache

val session_duration = tmp2.repartition(1).write.csv("s3://mybucket/sandbox/session_duration")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...