Какой самый простой способ извлечь ссылки на веб-страницу, используя python без BeautifulSoup? - PullRequest
1 голос
/ 11 декабря 2010

Я использую cygwin и не установил BeautifulSoup.

Ответы [ 2 ]

0 голосов
/ 11 декабря 2010

Если вам не важна производительность, вы можете использовать регулярные выражения:

import re
linkre = re.compile(r"""href=["']([^"']+)["']""")
links = linkre.findall(your_html)

Если вы просто хотите ссылки, как в http: // links, измените выражение на:

linkre = re.compile(r"""href=["']http:([^"']+)["']""")

Или вы можете поставить "" необязательным, если по какой-то причине у вас есть html без них вокруг ссылок.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...