Question

Я бы хотел использовать dask для распараллеливания задачи обработки чисел.

Эта задача использует только одно из ядер на моем компьютере.

В результате этой задачи я хотел бы добавить запись в DataFrame через shared_df.loc[len(shared_df)] = [x, 'y'].Этот DataFrame должен быть заполнен всеми (четырьмя) рабочими / потоками paralllel на моем компьютере.

Как мне настроить dask для этого?

mdurant · Answer 1 · 18 ноября 2018

Правильный способ сделать что-то подобное, в общих чертах:

создает функцию, которая для заданного аргумента возвращает фрейм данных некоторой части общих данных
оберните эту функцию в dask.delayed, составьте список вызовов для каждого входного аргумента и создайте dask-dataframe с dd.from_delayed
если вам действительно нужно, чтобы индекс был отсортирован, а индекс был разделен по линиям, отличным от фрагмента, который вы применяли на предыдущем шаге, вы можете сделать set_index

Пожалуйста, прочтите строки документации и примеры для каждого из этих шагов!

Как использовать dask для заполнения DataFrame в параллельной задаче?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать dask для заполнения DataFrame в параллельной задаче?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы