Вот некоторый текст, всего две строки в нудистом ndarray:
titles
>>> array(['"a onda": como a psicologia social pode explicar a ação dos grupos?',
'"beba menos mas beba melhor": entenda o lema da cerveja artesanal'],
dtype=object)
Я ожидал, что векторизатор в CountVectorizer
sklearn правильно разделит слова, но, похоже, это не так (обратите внимание, что это не удалосьчтобы пометить слово «ação», он отбросил непонятные символы):
cv=CountVectorizer()
cv.fit(titles)
tokenizer = cv.build_tokenizer()
[tokenizer(s) for s in titles]
[['onda',
'como',
'psicologia',
'social',
'pode',
'explicar',
'ac', ## <<<< sklearn failed to identify the word "ação"
'dos',
'grupos'],
['beba',
'menos',
'mas',
'beba',
'melhor',
'entenda',
'lema',
'da',
'cerveja',
'artesanal']]
Я использую версию sklearn 0.21.2 и версию Python 3.60,7 .