Я работаю над программой, которая собирает некоторую информацию из HTML-файла на основе различных выражений регулярных выражений.Я обнаружил ошибку со следующим кодом
Мой подкласс HTMLParser:
class MyHtmlParser(HTMLParser):
def __init__(self):
self.reset()
self.title = []
def handle_data(self, d):
Result = re.search(r'ANMELDELSE .*(?=</b>)',d)
if Result:
self.title.append(Result.group(0))
def return_data(self):
return self.title
Запуск кода:
with open(r'....', "r") as f: #correct path to local test.html
page = f.read()
parser.feed(page)
parser.return_data()
Теперь файл HTML действительно грязный ина норвежском, но здесь есть подмножество, которое должно вызывать это
<p style="margin: 0cm 0cm 0pt;"><span style="text-decoration: underline;">Sak 428/18-123, 03.09.2018 </span></p>
<p style="margin: 0cm 0cm 0pt;"><b> </b></p>
<p style="margin: 0cm 0cm 0pt;"><b>ANMELDELSE FOR TRAKASSERING</b></p>
. Это должно выбрать "ANMELDELSE FOR TRAKASSERING", и это происходит как в https://regex101.com/, так и в https://regexr.com/,, но когдапосле выполнения кода все, что я напечатал, это пустой список.Код работал с предыдущими вызовами регулярных выражений, поэтому я немного растерялся.
Надеюсь, что кто-то может помочь!