Нечеткое совпадение строк в одном столбце и создание нового фрейма данных с использованием fuzzywuzzy - PullRequest
0 голосов
/ 25 февраля 2019

У меня есть следующий фрейм данных:

df = pd.DataFrame(
    {'id': [1, 2, 3, 4, 5, 6], 
     'fruits': ['apple', 'apples', 'orange', 'apple tree', 'oranges', 'mango']
    })
   id      fruits
0   1       apple
1   2      apples
2   3      orange
3   4  apple tree
4   5     oranges
5   6       mango

Я надеюсь найти нечеткие строки в столбце fruits и получить новый фрейм данных следующим образом, значение ratio_score которого больше 80.

Как это можно сделать в Python, используя пакеты fuzzywuzzy?Благодарю.Обратите внимание: ratio_score - это серия значений, составленная в качестве примера.

Мое решение:

df.loc[:,'fruits_copy'] = df['fruits']
df['ratio_score'] = df[['fruits', 'fruits_copy']].apply(lambda row: fuzz.ratio(row['fruits'], row['fruits_copy']), axis=1) 

Ожидаемый результат:

     id      fruits    matched_id     matched_fruits   ratio_score   
0     1       apple        2                apples           95
1     1       apple        4            apple tree           85     
2     2      apples        4            apple tree           80   
3     3      orange        5               oranges           95     
4     6       mango         

Ссылка связана:

Нечеткое сопоставление отсортированного столбца с самим собой с использованием python

Применение нечеткого сопоставления для столбца данных и сохранение результатов в новом столбце

Как нечетко сопоставить элементы в столбце массива в python?

Использование fuzzywuzzy для создания столбца сопоставленных результатов во фрейме данных

1 Ответ

0 голосов
/ 25 февраля 2019

Мое решение со ссылками ниже: Применение нечеткого сопоставления для столбца данных и сохранение результатов в новом столбце

df.loc[:,'fruits_copy'] = df['fruits']

compare = pd.MultiIndex.from_product([df['fruits'],
                                      df['fruits_copy']]).to_series()

def metrics(tup):
    return pd.Series([fuzz.ratio(*tup),
                      fuzz.token_sort_ratio(*tup)],
                     ['ratio', 'token'])

compare.apply(metrics)

                       ratio  token
apple      apple         100    100
           apples         91     91
           orange         36     36
           apple tree     67     67
           oranges        33     33
           mango          20     20
apples     apple          91     91
           apples        100    100
           orange         33     33
           apple tree     62     62
           oranges        46     46
           mango          18     18
orange     apple          36     36
           apples         33     33
           orange        100    100
           apple tree     25     25
           oranges        92     92
           mango          55     55
apple tree apple          67     67
           apples         62     62
           orange         25     25
           apple tree    100    100
           oranges        24     24
           mango          13     13
oranges    apple          33     33
           apples         46     46
           orange         92     92
           apple tree     24     24
           oranges       100    100
           mango          50     50
mango      apple          20     20
           apples         18     18
           orange         55     55
           apple tree     13     13
           oranges        50     50
           mango         100    100
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...