как считать пунктуацию в CountVectorizer? - PullRequest
0 голосов
/ 28 мая 2019

Я использую CountVectorizer из Sklearn для преобразования моих строк в вектор. Тем не менее, CountVectorizer по умолчанию выбирает токены из 2 и более символов, а также игнорирует знаки препинания и рассматривает их как разделитель. Я хочу рассматривать даже один символ в качестве маркера, а также включать знаки препинания. Например:

aaa 1 2.75 zzz
aaa 2 3.75 www

Я хочу матрицу

1 1 1 0 1 1 0 
1 0 1 1 0 0 1

Есть ли простой способ достичь этой цели?

...