Python Text Clean удалить гиперссылку - PullRequest
0 голосов
/ 26 января 2020

Я работаю над небольшим проектом по добыче текста. У меня есть некоторые проблемы с предварительной обработкой текста. Есть текст, содержащий гиперссылку без «https», например: «Для получения дополнительной информации, пожалуйста, посетите нас www.doctorpaul.org» Я хочу удалить этот вид гиперссылки

text = re.sub(r'https?:\/\/.*\/\w*', ' ', text)
text = re.sub(r'[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?', ' ', text)

, однако это не так хорошо работать. Пожалуйста, дайте мне знать, как убрать подобные грязные слова из моего корпуса.

Спасибо за любые подсказки и ответы!

...