Я новичок и у меня есть данные в следующем формате
Категория, Подкатегория, Имя
Food,Thai,Restaurant A
Food,Thai,Restaurant B
Food, Chinese, Restaurant C
Lodging, Hotel, Hotel A
Я хочу, чтобы данные были в следующем формате
{Category : Food , Subcategories : [ {subcategory : Thai , names : [Restaurant A , Restaurant B] }, {subcategory : Chinese , names : [Restaurant C]}]}
{Category : Hotel , Subcategories : [ {subcategory : Lodging , names : [Hotel A] }]}
Может кто-нибудь помочь мне, как решить эту проблему с помощью pyspark RDD?
Спасибо!