Question

Я пытаюсь очистить веб-страницу с использованием следующих <li id="size_name_1" ....> <li id="size_name_2"....> <li id="size_name_a". Есть ли способ найти size_name_NUMBER', например,

response.xpath('//*[@id="size_name_\d+"]')

. Я хочу использовать регулярное выражение в поиске идентификатора.SCRAPY.

QHarr · Answer 1 · 27 сентября 2019

Вы можете сделать это с помощью селекторов css, используя regex, чтобы сначала получить соответствующие идентификаторы.Я отмечаю, что вы используете скрап, но тот же принцип должен применяться.

from bs4 import BeautifulSoup
import re

html = '''
<html>
 <head></head>
 <body>
  <li id="size_name_1" > me </li>
  <li id="size_name_2" > and me </li>
  <li id="size_name_a" > but not me :-(</li>
 </body>
</html>
'''

p = re.compile(r'id="(size_name_\d+)"')
ids = p.findall(html)
soup = bs(html, 'lxml')

for i in ids:
    print(soup.select_one(f'li[id="{i}"]'))

найти xpath с указанным идентификатором regex

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

найти xpath с указанным идентификатором regex

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов