lxml python - извлечение тега и перебор дочерних элементов - PullRequest
0 голосов
/ 13 января 2012

Я использую lxml для получения тега следующим образом:

el = doc.get_element_by_id('productDescription')

Насколько я понимаю, el содержит только этот тег и его дочерние элементы.

Когда я использую el.iterdescendants(), я получаю теги вне основного тега, который я извлекаю!
Как это возможно? (Это amazon.com, поэтому DOM хорош).

 el = doc.get_element_by_id('productDescription')
 for j in el.iterdescendants():
     print j.tag

Как правильно извлечь тег и работать только с потомками?

1 Ответ

0 голосов
/ 17 января 2012

Вы должны использовать CSSSelector

import CSSSelector

, потому что это намного надежнее !!!

...