Фрейм данных Pyspark: кросс-таблица или другой метод для создания метки строки в качестве новых столбцов - PullRequest
0 голосов
/ 11 декабря 2018

У меня есть фрейм данных pyspark, как показано на рисунке:

enter image description here

Т.е. у меня есть четыре столбца: год, слово, число, частота.Год с 2000 по 2015 год.

Мне бы хотелось выполнить какую-то операцию с фреймом данных (pyspark), чтобы я получил результат в следующем формате:

enter image description here

Новый столбец данных должен быть следующим: слово, частота_2000, частота_2001, частота_2002, ..., частота_2015.

Частота каждого слова в каждом году, приходящаяся на предыдущий кадр данных.

Какой-нибудь совет, как я мог бы написать эффективный код?

Также, пожалуйста, переименуйте название, если вы могли бы придумать более информативный.

1 Ответ

0 голосов
/ 11 декабря 2018

После некоторых исследований я нашел решение: enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...