Корреляция между двумя строками - PullRequest
0 голосов
/ 20 декабря 2018

Я пытаюсь выяснить, есть ли связь между двумя столбцами в наборе данных.Я использую fuzzywuzzy и part_ratio, чтобы определить, есть ли «совпадение» между столбцом ключевых слов и столбцом «заголовок проблемы».

Столбец ключевого слова содержит мета-теги для статей с разделителем пробелов.Мой код работает нормально, но мне интересно, есть ли лучший способ сделать то, что я пытаюсь сделать?

КОД:

import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz   

df.dropna(subset=['Keywords', 'Issue'], inplace=True)
df['Acc'] = df.apply(lambda rows: fuzz.partial_ratio(rows['Keywords'],rows['Issue']),axis = 1)
df[['Issue','Keywords','Len','Acc']].head(1)

Это возвращает следующий фрейм данных:

| Issue | Keywords                                                                                            | Len | Acc |
|-------|-----------------------------------------------------------------------------------------------------|-----|-----|
| 0     | General information regarding proof of employm... Verification Employment calls Work Number VOE ... | 19  | 57  |

Итак, в столбце «Лен» 19 ключевых слов, а в рейтинге - 57.Круто, есть ли другой способ определить, используются ли правильные «теги» и на 100% ли они связаны со столбцом «проблема»?

...