Как написать сценарий Python для поиска HTML-сайта на наличие соответствующих ссылок - PullRequest
3 голосов
/ 04 марта 2010

Я не слишком знаком с python и должен написать скрипт для выполнения множества функций. В основном, модуль, который мне все еще нужен, заключается в том, как проверить код веб-сайта на наличие ссылок, предоставленных заранее.

Ответы [ 3 ]

5 голосов
/ 04 марта 2010

Соответствующие ссылки что? Их атрибут HREF? Текст ссылки отображается? Возможно что-то вроде:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

Это захватит HTML-содержимое somesite.com и затем проанализирует его с помощью BeautifulSoup, ища только ссылки, атрибут HREF которых начинается с «test». Затем он создает список этих ссылок и распечатывает их.

Вы можете изменить это, чтобы сделать что-нибудь, используя документацию .

3 голосов
/ 04 марта 2010

Как правило, вы используете urllib , urllib2 (htmllib и т. Д.) Для программирования веб-страниц на Python. Вы также можете использовать mechanize , curl и т. д. Затем для обработки HTML и получения ссылок вы можете использовать парсеры, такие как BeautifulSoup .

0 голосов
/ 05 июля 2014

попробуй scrapy, самую полную систему извлечения веб-страниц.

http://scrapy.org

...