Ошибка группировки по ключу для dask dataframe map_partitions - PullRequest
0 голосов
/ 22 мая 2018

Я пытаюсь запустить работу на большом фрейме данных.По сути, в рамках датафрейма есть две группы, и я выполняю нечеткое совпадение между ними.Одна группа - это группа, выполняющая сопоставление, а другая - сопоставляемая.Соответствующая группа имеет значение 3,0, а соответствующая группа имеет значение 1,5 или 2,0.

Мой код работает по большей части, но после его завершения (что занимает пару часов) он дает мне ключевую ошибку для соответствующей группы.

Вот мой код:

for i in [2.0,1.5]:
    FuzzyWuzzyResults = emb.map_partitions(
        lambda df: df.groupby('phase').get_group(3.0)['drugs'].apply(
            fuzzy_match, args=(df.groupby('phase').get_group(i)['drugs'],
            fuzz.token_sort_ratio,85)), meta=('results')
        ).compute() 

Он будет работать для большинства разделов огромного информационного кадра pandas, но в конце я получаю пару ошибок "KeyError 3.0", икод перерывы между ними.Как я могу это исправить?Если возможно, я бы не хотел использовать групповую обработку, а скорее разбить фрейм og на две части и применить задание dask таким образом, но я не уверен.

...