У меня есть два разных текста, которые я хочу сравнить, используя векторизацию tfidf.То, что я делаю, это:
- токенизация каждого документа
- векторизация с использованием TFIDFVectorizer.fit_transform (tokens_list)
Теперь векторы, которые я получаю после шага 2имеют разную форму.Поэтому, когда я использую формулы: ((tfidf * tfidf.T) .A [0,1], я получаю 1,0 за использование одного и того же пакета слов и одинакового балла для разных пакетов слов.
Чтоя делаю не так? Пожалуйста, помогите.
Рассмотрим пример, приведенный ниже:
text = ['akshit']
text2 = ['human']
from sklearn.feature_extraction.text import TfidfVectorizer
vectoriser=TfidfVectorizer(stop_words='english')
tfidf = vectoriser.fit_transform(text,text2)
print ((tfidf * tfidf.T).A[0,1]
Заранее спасибо.