Я пытаюсь разобрать страницу, используя мой скрипт на python.Но тег <nobr>
вместе с '&' доставляет мне неприятности.Здесь фактический HTML.
<A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>
Теперь моя handle_data
функция моего анализатора (использующая sgmllib) не может правильно обрабатывать данные.Вот код handle_data.
def handle_data(self, data):
self.datainfo.append(data)
Я ожидаю, что массив datainfo будет иметь только один элемент, а именно «Симуляция для 1-го и 2-го пути»
Однако, когда я печатаю массив datainfo, фактическое содержимое массива datainfo7 в количестве.
datainfo -> ['', '', 'Simulation for 1st', '&', '2nd path', '', '']
Что происходит?