Я использовал решение, данное здесь , но я хочу знать, почему кодирование текста в utf-8
не возвращает токенизированные слова. Вот пример кода
tn = ['গাড়ি রাস্তায় চালানো হয়', 'ট্রাক হাইওয়েতে চালানো হয়']
tne = [x.encode('utf-8') for x in tn]
vectorizer = TfidfVectorizer()
response = vectorizer.fit_transform(tne)
terms = vectorizer.get_feature_names()
print(response)
print(terms)
(0, 1) 1.0
(1, 0) 0.8148024746671689
(1, 1) 0.5797386715376657
['ইওয়', 'হয়']
Я хочу получить следующий результат:
(0, 5) 0.40993714596036396
(0, 1) 0.40993714596036396
(0, 3) 0.5761523551647353
(0, 0) 0.5761523551647353
(1, 4) 0.5761523551647353
(1, 2) 0.5761523551647353
(1, 5) 0.40993714596036396
(1, 1) 0.40993714596036396
['গাড়ি', 'চালানো', 'ট্রাক', 'রাস্তায়', 'হাইওয়েতে', 'হয়']