Я использую CountVectorizer из Sklearn для преобразования моих строк в вектор. Тем не менее, CountVectorizer по умолчанию выбирает токены из 2 и более символов, а также игнорирует знаки препинания и рассматривает их как разделитель. Я хочу рассматривать даже один символ в качестве маркера, а также включать знаки препинания. Например:
aaa 1 2.75 zzz
aaa 2 3.75 www
Я хочу матрицу
1 1 1 0 1 1 0
1 0 1 1 0 0 1
Есть ли простой способ достичь этой цели?