Я хотел бы за цикл по фрейму данных pyspark с различными значениями в определенном столбце. Похоже, что это не работает так же, как использование панд в Python. Как мне этого добиться?
Предположим, у меня есть следующий фрейм данных:
+---------+
|val1|val2|
+---------+
|1 |10 |
|2 |11 |
|1 |10 |
|2 |12 |
|3 |13 |
|1 |15 |
|1 |11 |
|1 |16 |
|3 |17 |
|3 |18 |
|2 |12 |
|2 |11 |
|3 |14 |
|1 |19 |
|1 |17 |
+---------+
и я хотел бы составить гистограмму val2 для каждого отдельного val1 (1,2,3).
Как я могу сделать это, используя цикл for?
Спасибо!