Если у меня очень большой DataFrame в моем кластере PySpark, вызовет ли он df.count()
для него, весь DataFrame df
будет помещен в память одного узла, или все отдельные узлы будут считать свою часть структурировать и вернуть его куда-нибудь для агрегирования в качестве конечного результата?
Я не вижу в документации ничего, что указывало бы на то или иное. По сути, я не хочу вызывать count()
для DataFrame, который слишком велик, чтобы поместиться в память любого отдельного узла.