Проще и, как правило, более эффективно (поскольку оптимизатор спарк работает с кадрами данных, тогда как вам нужно самостоятельно оптимизировать rdds), работать с кадрами данных, а не с rdds:
from pyspark.sql.functions import *
df=spark.createDataFrame([[['A','C','B']], [['D','A','B','C']], [['C','B']],[['B']]],['l'])
df.show()
+------------+
| l|
+------------+
| [A, C, B]|
|[D, A, B, C]|
| [C, B]|
| [B]|
+------------+
df.withColumn('l',sort_array('l')).show()
+------------+
| l|
+------------+
| [A, B, C]|
|[A, B, C, D]|
| [B, C]|
| [B]|
+------------+
, если вы все еще хотите использовать rdd, вы можетевсегда
rdd=df.withColumn('l',sort_array('l')).rdd