Question

Насколько я знаю, библиотеки Python, такие как BeautifulSoup или scrapy, могут возвращать текстовый контент для предоставленного CSS-селектора или XPath. То, что я ищу, - это наоборот: я хочу предоставить текст, который нужно очистить, и хочу получить CSS-селектор или XPath для получения этого текста.

Это то, что можно сделать с помощьюсуществующая библиотека?

html = """
<h1 class="some-class">Article title</h1>
<div class="article-text">
  <p class="article-paragraph">Article paragraph text 1.</p>
  <p class="article-paragraph">Article paragraph text 2.</p>
</div>
"""

# ... some magic here with get_selector_by_text_content()
article_title_selector = get_selector_by_text_content("Article title", html) # 'h1.some-class'
article_body_selector = get_selector_by_text_content("Article paragraph text 1. \nArticle paragraph text 2.", html) # 'div.article-text > p'

pguardiario · Answer 1 · 06 октября 2019

Это будет просто //*[contains(text(),'Text')] или :contains("Text") (с помощью cssselect)

Jack Fleeting · Answer 2 · 06 октября 2019

Если вы можете использовать lxml, вы можете получить xpath предоставленных текстов:

import lxml.html
from lxml import etree

targets = ['Article title','Article paragraph text 1.','Article paragraph text 2.']

root = lxml.html.fromstring(html)
tree = etree.ElementTree(root)
for e in root.iter():
    for target in targets:
        if e.text== target:
            print(tree.getpath(e))

Вывод:

/div/h1
/div/div/p[1]
/div/div/p[2]

Получить CSS-селектор или XPath на основе textContent

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить CSS-селектор или XPath на основе textContent

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов