Возможно, ваш код не работает до того, как вы попадете в Dask.Если у вас очень большой массив данных Pandas, значит, у вас уже есть проблемы.В этом случае Dask не может вам помочь.
df = pandas.DataFrame({'x': my_very_large_array}) # maybe you're failing here
ddf = dask.dataframe.from_pandas(df, npartitions=100) # rather than here
Вместо этого люди чаще читают свои данные непосредственно в рамки данных Dask, а не маршрутизируют через Pandas.Они часто используют такие функции, как dask.dataframe.read_csv
или dask.dataframe.read_parquet
, чтобы загружать свои большие наборы данных непосредственно в Dask.Это помогает им избежать необходимости сначала загружать все свои данные в Pandas, что потребует, чтобы их набор данных поместился в памяти.
Более подробная информация о создании фреймов данных Dask доступна здесь: https://docs.dask.org/en/latest/dataframe-create.html
Если вы столкнулись с ошибкой во второй строке, то я предполагаю, что вы используете примерно 50% используемой памяти, и разделение ваших данных Dask приводит к копированию.В этом случае решение остается тем же: не загружайте свои данные в Pandas, а затем перемещайте их в Dask.Если ваши данные удобно помещаются в памяти, используйте Pandas.Если этого не произойдет, то вам, вероятно, следует найти способы загрузить его, кроме как перенести все это в память сразу.