HTML-код является слепым и содержит строку "PRICE" в html. Эта частичная строка должна соответствовать html-тексту. Если текст соответствует (частичное совпадение) с использованием xpath. Он должен возвращать конкретный путь тега html.
Примечание: Мне нужно автоматизировать эту логику для нескольких сайтов. Мне нужно использовать общее правило
(Для определения местоположения "Price", выборки родительского тега)
Это пример:
html="""<div id = "price_id">
<span id = "id1"></span>
<div class="price_class">
<bold>
<strong>
<label>PRICE:</label> 125 Rs.
</bold>
</strong>
</br>
</br>
</div>"""
Я использовал lxml
from lxml.html.clean import Cleaner
cleaner =Cleaner(page_structure=False)
cl = cleaner.clean_html(html)
cleaned_html = fromstring(cl)
for element in cleaned_html:
if element.text == 'PRICE':
print "matched"
Как это будет написано с использованием выражения Xpath?
Мне просто нужно получить путь к классу div с помощью выражения xpath.
Также проблема в том, что если я найду строку "PRICE:".
Мне нужно получить родительский действительный тег , который является "div" с именем класса "price_class".
но здесь я должен пропустить или удалить ненужные теги , такие как шрифт, жирный, курсив ...
Не могли бы вы предложить мне получить родительский допустимый тег для найденной строки?