Может кто-нибудь помочь мне с пониманием агрегации в Spark с использованием Python и Scala - PullRequest
0 голосов
/ 27 сентября 2018

Мне нужна помощь по методам агрегирования, использующим искру с использованием фреймов данных.Используя spark sql, я могу легко сгенерировать агрегацию, но как эффективно выполнять множественное агрегирование с использованием фреймов данных.То, что я ищу, это:

  1. Получить Total-count, эквивалентный count (*).
  2. Уникальный счет какого-то определенного поля.Например: select col1, col2, col3, count(*), countDistinct(col1,col2)

  3. Получите первое посещение.

  4. Количество col, замеченных только в группе.

    select col1, col2, col3, count(col3 not seen before{i.e. it's primary to particular set of columns})

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...