Рассчитать сходство текста между списками, используя CountVectorizer, TFIDFVectorizer - PullRequest
2 голосов
/ 28 мая 2019

Я хотел бы видеть сходство между списками, используя TFIDFVectorizer и CountVectorizer.

У меня есть списки, подобные ниже:

list1 = [['i','love','machine','learning','its','awesome'],
         ['i', 'love', 'coding', 'in', 'python'],
         ['i', 'love', 'building', 'chatbots']]
list2 = ['i', 'love', 'chatbots']

Здесь я хотел бы видеть сходство междуlist1[0] and list2,
list1[1] and list2, list1[2] and list2.

Ожидаемый результат должен быть как [0.99 , 0.67, 0.54]

1 Ответ

2 голосов
/ 28 мая 2019

Из документов TfidfVectorizer есть: "Эквивалент CountVectorizer, за которым следует TfidfTransformer."

Вот код

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    "i love machine learning its awesome",
    "i love coding in python",
    "i love building chatbots",
    "i love chatbots"
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
# print(vectorizer.get_feature_names())
arr = X.toarray()

И ответы, используя косинусное сходство

# similarity of yours `list1[0] and list2`  
np.dot(arr[0], arr[3]) # gives ~0.139
# similarity of yours `list1[1] and list2`  
np.dot(arr[1], arr[3]) # gives ~0.159
# similarity of yours `list1[2] and list2`  
np.dot(arr[2], arr[3]) # gives ~0.687

или используя сходство jaccard и CountVectorizer Я думаю, что это ближе к тому, что вы ожидаете

from sklearn.metrics import jaccard_score
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
arr = X.toarray()

jaccard_score(arr[0], arr[3]) # gives 0.5
jaccard_score(arr[1], arr[3]) # gives 0.6
jaccard_score(arr[2], arr[3]) # gives 0.9
...