передача неанглийского sh текста в TfidfVectorizer из scikit-learn - PullRequest
0 голосов
/ 07 мая 2020

Я использовал решение, данное здесь , но я хочу знать, почему кодирование текста в utf-8 не возвращает токенизированные слова. Вот пример кода

tn = ['গাড়ি রাস্তায় চালানো হয়', 'ট্রাক হাইওয়েতে চালানো হয়']
tne = [x.encode('utf-8') for x in tn]
vectorizer = TfidfVectorizer() 
response = vectorizer.fit_transform(tne)
terms = vectorizer.get_feature_names() 
print(response)
print(terms)
(0, 1)  1.0
(1, 0)  0.8148024746671689
(1, 1)  0.5797386715376657
['ইওয়', 'হয়']

Я хочу получить следующий результат:

  (0, 5)    0.40993714596036396
  (0, 1)    0.40993714596036396
  (0, 3)    0.5761523551647353
  (0, 0)    0.5761523551647353
  (1, 4)    0.5761523551647353
  (1, 2)    0.5761523551647353
  (1, 5)    0.40993714596036396
  (1, 1)    0.40993714596036396
['গাড়ি', 'চালানো', 'ট্রাক', 'রাস্তায়', 'হাইওয়েতে', 'হয়']
...