Это, вероятно, не имеет значения здесь. Но чтобы исключить эти HTML-элементы из всего документа, вы можете сделать что-то вроде этого: (Допустим, document = page и, пожалуйста, простите неаккуратный код, но если у вас есть идеи, как сделать его лучше, я все слышу - я новичок в это).
import re
import HTMLParser
regexp = "&.+?;"
list_of_html = re.findall(regexp, page) #finds all html entites in page
for e in list_of_html:
h = HTMLParser.HTMLParser()
unescaped = h.unescape(e) #finds the unescaped value of the html entity
page = page.replace(e, unescaped) #replaces html entity with unescaped value