Question

Я пытаюсь выяснить, как написать скрипт мониторинга веб-сайта (в конце задание cron), чтобы открыть заданный URL-адрес, проверить, существует ли тег и не существует ли тег, или не содержит ожидаемых данных, а затем записать их в файл журнала или отправить по электронной почте.

Метка будет похожа или сравнительно похожа.

У кого-нибудь есть идеи?

Bartek · Answer 1 · 09 апреля 2010

Самое лучшее, что я могу сделать, это проверить BeautifulSoup . Примерно так:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://yoursite.com")
soup = BeautifulSoup(page)

# See the docs on how to search through the soup. I'm not sure what
# you're looking for so my example stops here :)

После этого отправка его по электронной почте или регистрация в нем - стандартная плата за проезд.

systempuntoout · Answer 2 · 09 апреля 2010

Это пример кода (не проверенный), который регистрирует и отправляет почту:

#!/usr/bin/env python
import logging
import urllib2
import smtplib

#Log config
logging.basicConfig(filename='/tmp/yourscript.log',level=logging.INFO,)

#Open requested url
url = "http://yoursite.com/tags/yourTag"
data = urllib2.urlopen(url)

if check_content(data):
   #Report to log
   logging.info('Content found')
else:
   #Send mail
   send_mail('Content not found')

def check_content(data):
    #Your BeautifulSoup logic here
    return content_found

def send_mail(message_body):
    server = 'localhost'
    recipients = ['you@yourdomain.com']
    sender = 'script@yourdomain.com'
    message = 'From: %s \n Subject: script result \n\n %s' % (sender, message_body)
    session = smtplib.SMTP(server)
    session.sendmail(sender,recipients,message);

Я бы кодировал check_content() функцию, используя beautifulSoup

Isaac · Answer 3 · 09 апреля 2010

Следующий (непроверенный) код использует urllib2 для захвата страницы и повторного поиска для нее.

import urllib2,StringIO

pageString = urllib2.urlopen('**insert url here**').read()
m = re.search(r'**insert regex for the tag you want to find here**',pageString)
if m == None:
    #take action for NOT found here
else:
    #take action for found here

Следующий (непроверенный) код использует pycurl и StringIO для захвата страницы и повторного поиска для нее.

import pycurl,re,StringIO

b = StringIO.StringIO()
c = pycurl.Curl()
c.setopt(pycurl.URL, '**insert url here**')
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.perform()
c.close()
m = re.search(r'**insert regex for the tag you want to find here**',b.getvalue())
if m == None:
    #take action for NOT found here
else:
    #take action for found here

Python Script для проверки сайта на наличие тега

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python Script для проверки сайта на наличие тега

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы