Поиск по веб-странице - PullRequest
       19

Поиск по веб-странице

2 голосов
/ 07 февраля 2011

Эй, я работаю над проектом Python, который требует, чтобы я просматривал веб-страницу. Я хочу просмотреть, чтобы найти конкретный текст, и если он находит текст, то он что-то печатает. Если нет, то выводится сообщение об ошибке. Я уже пробовал использовать разные модули, такие как libxml, но не могу понять, как мне это сделать.

Может ли кто-нибудь помочь?

Ответы [ 2 ]

4 голосов
/ 07 февраля 2011

Вы можете сделать что-то простое, например:


import urllib2
import re

html_content = urllib2.urlopen('http://www.domain.com').read()

matches = re.findall('regex of string to find', html_content);

if len(matches) == 0: 
   print 'I did not find anything'
else:
   print 'My string is in the html'
3 голосов
/ 07 февраля 2011

lxml - это круто: http://lxml.de/parsing.html

Я регулярно использую его с xpath для извлечения данных из HTML.

Другой вариант - http://www.crummy.com/software/BeautifulSoup/, который также хорош.

...