Question

Я использую библиотеку sklearn для извлечения количества слов из твитов.Но у меня есть проблема, которая теряет некоторые специальные символы.Я хочу сохранить # и @ символы из функции countvectorizer.

Параметр token_pattern по умолчанию: token_pattern = '(? U) \ b \ w \ w + \ b'

Например, корпус представлен ниже;

['@terör @terör #terör ak @terör ali ali ...']

вывод;

['ak', 'ali', 'terör', ...]

Регулярное выражение по умолчанию удаляет специальные символы.Как я могу сохранить эти символы?

babeyh · Answer 1 · 19 февраля 2019

Я изменяю параметр с помощью;

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

Выход получается по желанию;

['@terör', '#terör', ...]

Как сделать хэштег и упомянуть сохранение символов из Countvectorizer token_pattern

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать хэштег и упомянуть сохранение символов из Countvectorizer token_pattern

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы