Question

Я не уверен при создании экземпляра класса CountVectorizer, в чем разница между vectorizer = CountVectorizer(tokenizer=word_tokenize) и vectorizer = CountVectorizer

Пожалуйста, помогите мне прояснить это. Спасибо за ваше время.

nicolasgervais · Answer 1 · 18 января 2020

По умолчанию CountVectorizer не маркирует ввод. Токенизация - это процесс разграничения и, возможно, классификации разделов строки входных символов. Другими словами, он превращает длинную строку, такую как 'This is the input', в последовательность:

['This', 'is', 'the', 'input']

Если вы укажете аргумент tokenizer с функцией вызова в CountVectorizer, он будет использовать эту функцию для токенизации вход ( источник ).

CountVectorizer в Scikit Learn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CountVectorizer в Scikit Learn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы