Я работаю с проблемой в классификации текста, где Если слово было найдено в этом формате "слово" , оно будет иметь значение, отличное от найденного в этом формате слово , поэтомуЯ попробовал этот код
import re
from sklearn.feature_extraction.text import CountVectorizer
sent1 = "The cat sat on my \"face\" face"
sent2 = "The dog sat on my bed"
content = [sent1,sent2]
vectorizer = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
vectorizer.fit(content)
print (vectorizer.get_feature_names())
Результат был
['"', 'bed', 'cat', 'dog', 'face', 'my', 'on', 'sat', 'the']
Где бы я хотел, чтобы это было
['bed', 'cat', 'dog', 'face','"face"' 'my', 'on', 'sat', 'the']