Как я могу использовать BeautifulSoup, чтобы найти все ссылки на странице, указывающие на определенный домен? - PullRequest
5 голосов
/ 28 января 2010

Как я могу использовать BeautifulSoup, чтобы найти все ссылки на странице, указывающей на определенный домен?

1 Ответ

8 голосов
/ 28 января 2010

Используйте SoupStrainer,

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

# Find all links
links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]

linkstodomain = SoupStrainer('a', href=re.compile('example.com/'))

Редактировать: модифицированный пример из официального документа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...