Различный счет на несколько несвязанных столбцов - PullRequest
0 голосов
/ 06 июня 2018

У меня есть набор данных, из которого я хочу различное количество более одного столбца и получить результат за один выбор, как это сделать?

Пример:

Таблица:

|Col_A|Col_B|
|a    |c    |
|a    |d    |
|b    |c    |
|b    |d    |
|b    |c    |

Я хочу вот так (с использованием одного запроса выбора) -

|Col_A|Count_of_A|Col_B|Count_of_B|
|a    |2         |c    |3         |
|b    |3         |d    |2         |

Как это сделать?Учитывая, что данные каждый раз неизвестны, и, следовательно, мы не можем использовать операторы where или case для конкретного варианта использования.

В идеале это проблема Spark-Streaming, где я хочу выполнить эту операцию на Sparkпотоковая передача данных каждый раз, когда поступают новые данные от Кафки.

...