- Вы разбили на
ID
и сохранили на диск - Вы прочитали его еще раз и хотите сгруппировать и применить pandas udf
Очевидно, что groupby
будет просматривать каждую запись, как и большинство функций. Но использование pandas_udf
, которое groupby("ID")
будет дорогостоящим, поскольку оно будет проходить через ненужные тасовки.
Вы можете оптимизировать производительность, используя groupby
spark_partition_id()
, поскольку вы уже разбиты на столбцы, по которым хотите группировать данные.
РЕДАКТИРОВАТЬ:
Если вы хотите имена файлов, вы можете попробовать:
from pyspark.sql.functions import input_file_name
df.withColumn("filename", input_file_name())