У меня есть фрейм данных pyspark, как показано на рисунке:

Т.е. у меня есть четыре столбца: год, слово, число, частота.Год с 2000 по 2015 год.
Мне бы хотелось выполнить какую-то операцию с фреймом данных (pyspark), чтобы я получил результат в следующем формате:

Новый столбец данных должен быть следующим: слово, частота_2000, частота_2001, частота_2002, ..., частота_2015.
Частота каждого слова в каждом году, приходящаяся на предыдущий кадр данных.
Какой-нибудь совет, как я мог бы написать эффективный код?
Также, пожалуйста, переименуйте название, если вы могли бы придумать более информативный.