Представляя, что у меня есть кадр данных, подобный приведенному ниже
+--------------------+----+
| _c5| _c1|
+--------------------+----+
| [comments]| id|
|[Daniel, is, real...|1191|
|[Daniel, is, the,...|1771|
|[We, had, such, a...|1989|
| null|null|
+--------------------+----+
Я знаю, что могу df.groupby("_c1").agg(F.collect_list("_c5"))
сгруппировать идентификатор, а затем вернуть массив массивов в столбце _c5, но мне интересно, был ли возможно, более эффективный способ памяти, когда у меня есть миллионы значений в массиве.
Собирает ли collect_list список в памяти? В идеале я бы получал сплюснутый отчетливый список в столбце _c5 вместо массива массивов.