У меня есть фрейм с искровыми данными в scala, например:
URL Browser
A Chrome
B Chrome
C Firefox
A Chrome
A Firefox
A Opera
A Chrome
B Chrome
B Firefox
C Tor
Столбец URL содержит широкий диапазон данных, но столбец Browser имеет ограниченный набор. Я хочу агрегировать по столбцу URL-адреса и получить верхние значения для каждого браузера в списке в порядке убывания, например:
URL FrequentlyUsedBrowser
A [(Chrome,3),(Firefox,1),(Opera,1)]
B [(Chrome,2),(Firefox,1)]
C [(Chrome,1),(Tor,1)]
Я писал SQL-код, чтобы он использовал раздел окна для получения счетчика какодна запись для каждого браузера, но не удалось получить его в списке.
Это для кластера данных Google Pro работает под управлением Spark 2.4 с Scala 2.11