нечеткий поиск между 2 рядами / df.columns - PullRequest
0 голосов
/ 30 августа 2018

на основе этой ссылки Я пытался выполнить нечеткий поиск: Применить нечеткое сопоставление к столбцу данных и сохранить результаты в новом столбце между 2 dfs:

import pandas as pd
df1 = pd.DataFrame(data={'Brand_var':['Johnny Walker','Guiness','Smirnoff','Vat 69','Tanqueray']})
df2 = pd.DataFrame(data={'Product':['J.Walker Blue Label 12 CC','J.Morgan Blue Walker','Giness blue 150 CC','tqry qiuyur qtre','v69 g nesscom ui123']})

У меня есть 2 dfs df1 и df2, которые необходимо отобразить с помощью нечеткого поиска / любого другого подходящего метода.

Ниже код, который я использую:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process
compare = pd.MultiIndex.from_product([df1['Brand_var'],
                                      df2['Product']]).to_series()
def metrics(tup):
    return pd.Series([fuzz.ratio(*tup),
                      fuzz.token_sort_ratio(*tup)],
                     ['ratio', 'token'])
compare.apply(metrics)
df = compare.apply(metrics).unstack().idxmax().unstack(0)
print(df)

Ниже мой вывод:

                             ratio       token
----------------------------------------------------------
Giness blue 150 CC         Guiness      Guiness
J.Morgan Blue Walker       Johnny Walker Johnny Walker 
J.Walker Blue Label 12 CC  Johnny Walker Johnny Walker 
tqry qiuyur qtre           Tanqueray     Tanqueray
v69 g nesscom ui123        Guiness       Guiness

Ожидаемый результат:

                             ratio       token
----------------------------------------------------------
Giness blue 150 CC          Guiness       Guiness
J.Morgan Blue Walker        None          None
J.Walker Blue Label 12 CC   Johnny Walker Johnny Walker 
tqry qiuyur qtre            Tanqueray     Tanqueray
v69 g nesscom ui123         Vat 69        Vat 69

Любые предложения, что может быть лучшим подходом (без использования нечеткой вузи, также хорошо), чтобы получить желаемый результат?

Заранее спасибо. :)

1 Ответ

0 голосов
/ 04 октября 2018

Приведенный ниже код с правилами даст ожидаемый результат:

import pandas as pd
from fuzzywuzzy import fuzz
df1 = pd.DataFrame(data={'Brand_var':['Johnny Walker','Guiness','Smirnoff','Vat 69','Tanqueray']})
df2 = pd.DataFrame(data={'Product':['J.Walker Blue Label 12 CC','J.Morgan Blue Walker','Giness blue 150 CC','tqry qiuyur qtre','v69 g nesscom ui123']})

Guiness_Beer = ["Giness","Guiness","Gines"]
Johnny_Walker = ["J.Walker","J.walker"]
Tanqueray     =["tqry","Tanqueray","tquery"]
Vat = ["69","Vat69","Vat 69"]

matched_names = []

for row in df1.index:
    brand_name = df2.get_value(row,"Product")
    Rule_Guiness = any(word in brand_name for word in Guiness_Beer)
    Rule_Johnny_Walker = any(word in brand_name for word in Johnny_Walker)
    Rule_Tanqueray = any(word in brand_name for word in Tanqueray)
    Rule_Vat = any(word in brand_name for word in Vat)
    if Rule_Guiness:
        matched_names.append([brand_name,"Guiness"])
    elif Rule_Johnny_Walker:
        matched_names.append([brand_name,"Johnny Walker"])
    elif Rule_Tanqueray:
        matched_names.append([brand_name,"Tanqueray"])
    elif Rule_Vat:
        matched_names.append([brand_name,"Vat 69"])
    else:
        matched_names.append([brand_name,"None"])


df = pd.DataFrame(columns=['Product', 'Brand'], data=matched_names)

Вы можете сделать больше модификаций, например, все словари, такие как Guiness_beer и т. Д., Можно настроить через excel , и вам не нужно прикасаться к коду, если в будущем вы захотите добавить / вычесть / изменить любое ключевое слово.

...