Обрабатывать тег <nobr>в python sgmllib - PullRequest
0 голосов
/ 18 февраля 2011

Я пытаюсь разобрать страницу, используя мой скрипт на python.Но тег <nobr> вместе с '&' доставляет мне неприятности.Здесь фактический HTML.

<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>

Теперь моя handle_data функция моего анализатора (использующая sgmllib) не может правильно обрабатывать данные.Вот код handle_data.

def handle_data(self, data):
        self.datainfo.append(data)

Я ожидаю, что массив datainfo будет иметь только один элемент, а именно «Симуляция для 1-го и 2-го пути»

Однако, когда я печатаю массив datainfo, фактическое содержимое массива datainfo7 в количестве.

datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']

Что происходит?

1 Ответ

0 голосов
/ 18 февраля 2011

Вам нужно закодировать амперсанд, например &amp;, чтобы стать действительным HTML.

...