Question

Есть ли способ получить исходное местоположение элемента в документе, т.е.индекс начала и конца символа при разборе html / xml в Python?

Я просмотрел документацию по lxml и ничего не смог найти.

например.

<a>1</a><b>2</b>

...

print tree.find('b').original_position
# result: (9, 16)

Dave · Answer 1 · 24 ноября 2011

Google нашел это , суть которого такова: трудно искаженным документам, потому что при синтаксическом анализе требуется синтезировать действительные токены, которые не имеют соответствующего ввода. Это возможно для действительных документов, но большинство библиотек синтаксического анализа не поддерживают его.

Разобрать HTML / XML и найти расположение элементов в оригинальном документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разобрать HTML / XML и найти расположение элементов в оригинальном документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы