Я использую библиотеку sklearn для извлечения количества слов из твитов.Но у меня есть проблема, которая теряет некоторые специальные символы.Я хочу сохранить # и @ символы из функции countvectorizer.
Параметр token_pattern по умолчанию: token_pattern = '(? U) \ b \ w \ w + \ b'
Например, корпус представлен ниже;
['@terör @terör #terör ak @terör ali ali ...']
вывод;
['ak', 'ali', 'terör', ...]
Регулярное выражение по умолчанию удаляет специальные символы.Как я могу сохранить эти символы?