Я запускаю программу зажигания с --conf spark.sql.shuffle.partitions=100
Внутри приложения у меня есть следующее
Dataset<Row> df_partitioned = df.repartition(df.col("enriched_usr_id"));
df_partitioned = df_partitioned.sortWithinPartitions(df_partitioned.col("transaction_ts"));
df_partitioned.mapPartitions(
SparkFunctionImpl.mapExecuteUserLogic(), Encoders.bean(Transformed.class));
У меня около 5 миллионов пользователей, и я хочу отсортировать данные для каждого пользователя и выполнить некоторую логику для каждого пользователя.
Мой вопрос заключается в том, разделяет ли это данные на 5 миллионов или 100 разделов и как работает выполнение для каждого пользователя.