Как удалить командные строки html или xml с загруженной веб-страницы, чтобы получать только текстовые данные во время предварительной обработки текста с использованием python-3.x
Я пытался сначала удалить специальные символы и числа с помощью str.translate, а затем перекрестно проверять токены из словаря английского языка, но некоторые команды html по-прежнему включаются.
def rmpunctuation(text):
chars_to_remove = "!\"·—#$%&'–()*+,-.•−⟨⟩/:;<=>?
@[\]^_`{|}~0123456789"
tr = str.maketrans("", "", chars_to_remove)
return text.translate(tr)
def dictcheck(text):
a = []
for i in range(0,len(text)):
if(d.check(text[i]) == True):
a.append(text[i])
return a
Я ожидаю, что вывод будет список всех слов, которые являются реальным текстом с веб-страницы, а не какой-либо код XML или HTML.