По умолчанию CountVectorizer
не маркирует ввод. Токенизация - это процесс разграничения и, возможно, классификации разделов строки входных символов. Другими словами, он превращает длинную строку, такую как 'This is the input'
, в последовательность:
['This', 'is', 'the', 'input']
Если вы укажете аргумент tokenizer
с функцией вызова в CountVectorizer
, он будет использовать эту функцию для токенизации вход ( источник ).