Удалите числа и символы с помощью регулярных выражений на CountVectorizer - PullRequest
0 голосов
/ 07 мая 2018

В настоящее время у меня есть функция CountVectorizer

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

с token_pattern по умолчанию, используемым Sklearn, и у меня есть некоторые результаты для get_features_names следующим образом:

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

Я хотел бы удалить чисел и _ . Я знаю, что для этого мне нужно изменить функцию регулярного выражения по умолчанию: r'(?u)\b\w\w+\b' Итак, Есть предложения?

Спасибо.

UPDATE:

Хорошие слова: Абразо, Абуррир, Экстранар, Адемас

Плохие слова: анамилан , 000,02,10,100,1080

Я хотел бы добавить ñ, á, é, í, ó, ú, я пробовал с [á-ú_ñ]+, но это не работает.

1 Ответ

0 голосов
/ 07 мая 2018

Этот шаблон должен соответствовать всем цифрам и _.

[\d_]

...