У меня огромный массив данных различных item_id
и связанных с ним данных, мне нужно обрабатывать каждую группу с item_id
отдельно параллельно, я попытался repartition
кадра данных с помощью item_id
, используя приведенный ниже код , но кажется, что он все еще обрабатывается в целом, а не кусками
data = sqlContext.read.csv(path='/user/data', header=True)
columns = data.columns
result = data.repartition('ITEM_ID') \
.rdd \
.mapPartitions(lambda iter: pd.DataFrame(list(iter), columns=columns))\
.mapPartitions(scan_item_best_model)\
.collect()
также является repartition
правильный подход или что-то я делаю не так?