Поиск в каталоге веб-сайта, проверка, а затем поместить URL-адрес в список в зависимости от содержимого - PullRequest
0 голосов
/ 05 июля 2011

Я работал над сценарием и подумал, что попрошу помощи. Я ищу, чтобы найти серию сайтов, проверить, является ли сайт действительным. Тогда следующим шагом будет проверка конкретного контента на сайте. Если сайт содержит этот контент, поместите URL-адрес в список.

import urllib2  

def getPage():  

    url="import urllib2  

National=[]
Local=[]
Sports=[]
Culture=[]

def getPage():  

    url="http://readingeagle.com/section.aspx?id=2"     

    for i in range (0,100,1)
        req = urllib2.Request(http://readingeagle.com/section.aspx?id=,i)
    if "national" in response:  

    response = urllib2.urlopen(req)  

    return response.read()
    for g in range (0,100,1)
    if "national" in response:
        National.append("http://readingeagle.com/section.aspx?id=,g"


# I would like to set-up an iteration to check the 'entryid from 1-100. If the term is found on the page, place the url in the list.

if __name__ == "__main__":  

    namesPage = getPage()  

    print (namesPage) 

1 Ответ

0 голосов
/ 05 июля 2011

Вот мой ответ на вопрос, как проверить данный веб-сайт.

Проверка Python HTML действителен

Для проверки контекста страницы инструменты состоятбазовых строковых методов, регулярных выражений или более сложных инструментов, таких как lxml или beautifulsoup.

matchingSites = []
matchingSites.append(url) #Since you asked. :-p
...