Я пытаюсь применить векторизатор подсчета для телугу и хинди, которые являются инди c языком. Но векторизатор автоматически заполняет слова.
count_vect = CountVectorizer()
xv=count_vect.fit_transform(['she is a good girl','वो बहुत सुन्दर है','ఇది చాలా లాడిష్ మరియు బాల్య టీనేజ్ కుర్రాళ్ళు మాత్రమే దీనిని ఫన్నీగా చూడవచ్చు', 'దోపిడీ మరియు ఎక్కువగా లోతు లేదా అధునాతనత లేని నేరాలకు సంబంధించిన గ్రాఫిక్ చికిత్సను చూడటం భరించదగినది'])
count_vect.get_feature_names()
вывод выглядит следующим образом:
['girl',
'good',
'is',
'she',
'दर',
'बह',
'అధ',
'ఇద',
'ఎక',
'చదగ',
'డట',
'డవచ',
'తనత',
'నద',
'ఫన',
'భర',
'మర',
'రమ',
'లక',
'వగ',
'సన']
Совершенно очевидно, что оно автоматически ограничивает слова телугу и хинди, есть ли способ избежать этого?