Вычислено для TfidfVectorizer () - PullRequest
0 голосов
/ 30 апреля 2019

Я использую TfidfVectorizer () для преобразования текста в числовой вектор, который я могу использовать в качестве независимой переменной для обучения модели.

Я попытался преобразовать текстовую строку в вектор с помощью TfidfVectorizer ()

from sklearn.feature_extraction.text import TfidfVectorizer
Tfidf_vect = TfidfVectorizer()
Tfidf_vect.fit(main['Description'])

Входные строки: - Описание-

Harry FEEL'N LEA.MEGA CEL FILL.2T-3T
Harry potter JUMBO CEL #1 COUCHES

векторизатор Выходные данные - -

->print(Tfidf_vect.vocabulary_)
{'Harry': 9, 'potter': 10, 'jumbo': 6, 'cel': 2, 'couches': 3, 'feel': 4, 
 'lea': 7, 'mega': 8, 'fill': 5, '2t': 0, '3t': 1}

=>print(Train_X_Tfidf)
  (0, 9)        0.26868527618515564
  (0, 8)        0.37762778074064174
  (0, 7)        0.37762778074064174
  (0, 5)        0.37762778074064174
  (0, 4)        0.37762778074064174
  (0, 2)        0.26868527618515564
  (0, 1)        0.37762778074064174
  (0, 0)        0.37762778074064174
  (1, 10)       0.4992213265230509
  (1, 9)        0.35520008546852583
  (1, 6)        0.4992213265230509
  (1, 3)        0.4992213265230509
  (1, 2)        0.35520008546852583

Пожалуйста, объясните, как значение 0.26868527618515564 генерируется для слова Гарри в первом предложении.

...