Как использовать dask для заполнения DataFrame в параллельной задаче? - PullRequest
0 голосов
/ 16 ноября 2018

Я бы хотел использовать dask для распараллеливания задачи обработки чисел.

Эта задача использует только одно из ядер на моем компьютере.

В результате этой задачи я хотел бы добавить запись в DataFrame через shared_df.loc[len(shared_df)] = [x, 'y'].Этот DataFrame должен быть заполнен всеми (четырьмя) рабочими / потоками paralllel на моем компьютере.

Как мне настроить dask для этого?

1 Ответ

0 голосов
/ 18 ноября 2018

Правильный способ сделать что-то подобное, в общих чертах:

  • создает функцию, которая для заданного аргумента возвращает фрейм данных некоторой части общих данных

  • оберните эту функцию в dask.delayed, составьте список вызовов для каждого входного аргумента и создайте dask-dataframe с dd.from_delayed

  • если вам действительно нужно, чтобы индекс был отсортирован, а индекс был разделен по линиям, отличным от фрагмента, который вы применяли на предыдущем шаге, вы можете сделать set_index

Пожалуйста, прочтите строки документации и примеры для каждого из этих шагов!

...