Может ли кто-нибудь дать мне пример того, как использовать http://code.google.com/p/streamhtmlparser для анализа всех тегов A
href из HTML-документа? (либо код C ++, либо код Python в порядке, но я бы предпочел пример, использующий привязки Python)
Я могу видеть, как это работает в тестах на python, но они ожидают, что в html уже есть специальные токены, в которых он проверяет значения состояния. Я не вижу, как получить правильные обратные вызовы во время изменений состояния при подаче анализатора простой HTML.
Я могу получить некоторую информацию, которую я ищу, с помощью следующего кода, но мне нужно кормить его блоками html, а не просто символами одновременно, и мне нужно знать, когда он заканчивается тегом, атрибутом и т. Д не только если он находится в теге, атрибуте или значении.
import py_streamhtmlparser
parser = py_streamhtmlparser.HtmlParser()
html = """<html><body><a href='http://google.com'>link</a></body></html>"""
for index, character in enumerate(html):
parser.Parse(character)
print index, character, parser.Tag(), parser.Attribute(), parser.Value(), parser.ValueIndex()
вы можете увидеть пример прогона этого кода здесь