Я пытаюсь использовать pyspark для майнинга правил ассоциации.Допустим, мои данные имеют вид:
myItems=spark.createDataFrame([(1,'a'),
(1,'b'),
(1,'d'),
(1,'c'),
(2,'a'),
(2,'c'),],
['id','item'])
Но в соответствии с https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html, формат должен быть:
df = spark.createDataFrame([(1, ['a', 'b', 'd','c']),
(2, ['a', 'c'])],
["id", "items"])
Поэтому мне нужно перенести мои данные из вертикального в горизонтальноеи длины для всех идентификаторов разные.
Может кто-нибудь помочь мне с тем, как перевести, или есть другой способ сделать это?