Разобрать HTML / XML и найти расположение элементов в оригинальном документе - PullRequest
0 голосов
/ 24 ноября 2011

Есть ли способ получить исходное местоположение элемента в документе, т.е.индекс начала и конца символа при разборе html / xml в Python?

Я просмотрел документацию по lxml и ничего не смог найти.

например.

<a>1</a><b>2</b>

...

print tree.find('b').original_position
# result: (9, 16)

1 Ответ

1 голос
/ 24 ноября 2011

Google нашел это , суть которого такова: трудно искаженным документам, потому что при синтаксическом анализе требуется синтезировать действительные токены, которые не имеют соответствующего ввода. Это возможно для действительных документов, но большинство библиотек синтаксического анализа не поддерживают его.

...