CountVectorizer в Scikit Learn - PullRequest
       19

CountVectorizer в Scikit Learn

1 голос
/ 18 января 2020

Я не уверен при создании экземпляра класса CountVectorizer, в чем разница между vectorizer = CountVectorizer(tokenizer=word_tokenize) и vectorizer = CountVectorizer

Пожалуйста, помогите мне прояснить это. Спасибо за ваше время.

1 Ответ

1 голос
/ 18 января 2020

По умолчанию CountVectorizer не маркирует ввод. Токенизация - это процесс разграничения и, возможно, классификации разделов строки входных символов. Другими словами, он превращает длинную строку, такую ​​как 'This is the input', в последовательность:

['This', 'is', 'the', 'input']

Если вы укажете аргумент tokenizer с функцией вызова в CountVectorizer, он будет использовать эту функцию для токенизации вход ( источник ).

...