Как реализовать dask mappartitions на лямбда-функции нескольких фреймов? - PullRequest
0 голосов
/ 18 мая 2018

Я реализовал нечеткую строку, сопоставляющую алгоритм между двумя фреймами данных, используя только панд.Моя проблема заключается в том, как я могу преобразовать это в операцию с использованием нескольких ядер?Моя программа работает около 3-4 дней на чистом Python, и я хочу распараллелить операции, чтобы оптимизировать временные затраты.Я уже использовал пакет многопроцессорной обработки для извлечения количества ядер с помощью приведенного ниже кода:

numCores = multiprocessing.cpu_count()

fields = ['id','phase','new']
emb = pd.read_csv('my_csv.csv', skipinitialspace=True, usecols=fields)

Затем мне пришлось разделить блок данных emb на два кадра данных (emb1, emb2) на основе числовых значений, связанных сстрока.Как и в случае, я сопоставляю фрейм данных со всеми элементами, имеющими значение 3, с соответствующими значениями 2 в другом фрейме данных по сопоставленной строке. Код для работы с чистыми пандами приведен ниже.

emb1 = emb[emb.phase.isin([3.0])]
emb1.set_index('id',inplace=True)

emb2 = emb[emb.phase.isin([2.0,1.5])]
emb2.set_index('id',inplace=True)

def fuzzy_match(x, choices, scorer, cutoff):
return process.extractOne(x, choices=choices, scorer=scorer, score_cutoff=cutoff)

FuzzyWuzzyResults = pd.DataFrame(emb1.sort_index().loc[:,'strings'].apply(fuzzy_match, args = (emb2.loc[:,'strings'],fuzz.ratio,90)))

Я пыталсяВыполнение dask-реализации с использованием этого кода:

emb1 = dd.from_pandas(emb1, npartitions=numCores)
emb2 = dd.from_pandas(emb2, npartitions=numCores)

Но запуск лямбда-функции для двух кадров данных сбивает меня с толку.Есть идеи?

1 Ответ

0 голосов
/ 19 мая 2018

Так что я просто исправил свой код, чтобы удалить ручной раздел данных, и вместо этого использовал groupby.

Вот код:

for i in [2.0,1.5]:
    FuzzyWuzzyResults = emb.map_partitions(lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],fuzz.ratio,90)), meta=('results')).compute()

Не уверен, что он точный, но по крайней мереон работает, и это тоже на всех процессорных ядрах.

...