Question

Я хотел бы найти определенную строку на очищенной HTML-странице и выполнить некоторые действия, если строка присутствует.

find = soup.find('word')
print(find)

Но это дает None, даже если на странице word. Также я попробовал:

find = soup.find_all('word')
print(find)

И это дает только [].

stasdeep · Answer 1 · 02 мая 2018

Метод find выполняет поиск тега. Поэтому, когда вы делаете soup.find('word'), вы просите BeautifulSoup найти все теги <word></word>. Я думаю, что это не то, что вы хотите.

Есть несколько способов выполнить то, что вы просите. Вы можете использовать модуль re для поиска с помощью регулярного выражения, такого как:

import re

is_present = bool(re.search('word', response.text))

Но вы можете избежать импорта дополнительных модулей, так как используете Scrapy, в которой есть встроенные методы для работы с регулярными выражениями. Просто используйте метод re на селекторе:

is_present = bool(response.xpath('//body').re('word'))

Поиск определенной строки во всем HTML, используя Beautiful Soup в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск определенной строки во всем HTML, используя Beautiful Soup в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов