Как сравнить два текстовых документа с векторизатором tfidf? - PullRequest
0 голосов
/ 12 декабря 2018

У меня есть два разных текста, которые я хочу сравнить, используя векторизацию tfidf.То, что я делаю, это:

  1. токенизация каждого документа
  2. векторизация с использованием TFIDFVectorizer.fit_transform (tokens_list)

Теперь векторы, которые я получаю после шага 2имеют разную форму.Поэтому, когда я использую формулы: ((tfidf * tfidf.T) .A [0,1], я получаю 1,0 за использование одного и того же пакета слов и одинакового балла для разных пакетов слов.

Чтоя делаю не так? Пожалуйста, помогите.

Рассмотрим пример, приведенный ниже:

text = ['akshit']
text2 = ['human']


from sklearn.feature_extraction.text import TfidfVectorizer


vectoriser=TfidfVectorizer(stop_words='english')
tfidf = vectoriser.fit_transform(text,text2)



print ((tfidf * tfidf.T).A[0,1]

Заранее спасибо.

...