Я смотрю, как перераспределить (в PySpark) набор данных, чтобы все строки с одинаковым идентификатором в указанном столбце перемещались в один и тот же раздел.Фактически мне нужно запустить в каждом разделе программу, которая вычисляет одно значение для всех строк с одинаковым идентификатором.
У меня есть фрейм данных (df), построенный из запроса HIVL QL (с допустим, например, содержит 10000отличные идентификаторы).Я попытался:
df = df.repartition("My_Column_Name")
По умолчанию я получаю 200 разделов, но всегда получаю 199 идентификаторов, для которых я получаю дублированные вычисленные значения при запуске программы.
Я посмотрел в Интернете,и некоторые люди рекомендовали определить пользовательский разделитель для использования с методом repartition
, но я не смог найти, как это сделать в Python.
Есть ли способ сделать это перераспределение правильно?