Функция агрегации Pyspark с массивами в столбцах - PullRequest
0 голосов
/ 06 февраля 2020

Представляя, что у меня есть кадр данных, подобный приведенному ниже

+--------------------+----+
|                 _c5| _c1|
+--------------------+----+
|          [comments]|  id|
|[Daniel, is, real...|1191|
|[Daniel, is, the,...|1771|
|[We, had, such, a...|1989|
|                null|null|
+--------------------+----+

Я знаю, что могу df.groupby("_c1").agg(F.collect_list("_c5")) сгруппировать идентификатор, а затем вернуть массив массивов в столбце _c5, но мне интересно, был ли возможно, более эффективный способ памяти, когда у меня есть миллионы значений в массиве.

Собирает ли collect_list список в памяти? В идеале я бы получал сплюснутый отчетливый список в столбце _c5 вместо массива массивов.

...