Когда я использую dask для группирования с использованием map_partitions, я получаю дублированные данные и неверные результаты по сравнению с простым pandas groupby. Но когда я использую n_partitons = 1, я получаю правильные результаты. Почему это происходит? и как я могу использовать несколько разделов и по-прежнему получать правильные результаты?
мой код
measurements = measurements.repartition(n_partitions=38)
measurements.map_partitions(lambda df : df.groupby(["id",df.time.dt.to_period("M"),
"country","job"]).source.nunique()).compute().reset_index()
В pandas я делаю
measurements.groupby(["id",measurements.time.dt.to_period("M"),
"country","job"]).source.nunique().reset_index()
PS: Я использую локальный кластер на одной машине.