Подсчет количества слов в группе по - PullRequest
0 голосов
/ 02 марта 2019

У меня есть набор данных

+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

Требуется подсчет ошибок числа дней в сутки

Вывод

+----------+--------+------------+
|    date|       errors| count
+----------+--------+------------+
 |20170319|      error1|    2
 |20170319|      error2|    3
 |20170319|        err6|    1
    val dataset = spark.read.json(path);
    val c =dataset.groupBy("date").count()

// как мне перейти к подсчету ошибок

Я пробовал использовать Windowing over date в spark scala sql, но не смог найти продуктивный. Нужно ли мне конвертировать в Rdd и найти подход ??

1 Ответ

0 голосов
/ 02 марта 2019

Вам просто нужно groupBy и date, и errors.

val c =dataset.groupBy("date","errors").count()
...