Как сделать хэштег и упомянуть сохранение символов из Countvectorizer token_pattern - PullRequest
0 голосов
/ 19 февраля 2019

Я использую библиотеку sklearn для извлечения количества слов из твитов.Но у меня есть проблема, которая теряет некоторые специальные символы.Я хочу сохранить # и @ символы из функции countvectorizer.

Параметр token_pattern по умолчанию: token_pattern = '(? U) \ b \ w \ w + \ b'

Например, корпус представлен ниже;

['@terör @terör #terör ak @terör ali ali ...']

вывод;

['ak', 'ali', 'terör', ...]

Регулярное выражение по умолчанию удаляет специальные символы.Как я могу сохранить эти символы?

1 Ответ

0 голосов
/ 19 февраля 2019

Я изменяю параметр с помощью;

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

Выход получается по желанию;

['@terör', '#terör', ...]
...