Кадры данных, так же как и другие распределенные структуры данных, не повторяемы и доступны только при использовании специальной функции высшего порядка и / или методов SQL.
Предположим, что ваш кадр данных - DF1, а вывод - DF2
Вам нужно что-то вроде:
values = [(['Justin', 'Lee'],), (['Chatbots', 'were'],), (['Our', 'hopes', 'were'],),
(['And', 'why', 'wouldn'],), (['At', 'the', 'Mobile'],)]
df = spark.createDataFrame(values, ['author', ])
df.agg(F.collect_list('author').alias('author')).show(truncate=False)
Upvote, если работает