Question

Привет, ребята, я пытаюсь URL-адреса из Google, но он возвращает 0 URL!

это мой код, что с ним не так?

    import string, sys, time, urllib2, cookielib, re, random, threading, socket, os, time
def Search(go_inurl,maxc):
    header = ['Mozilla/4.0 (compatible; MSIE 5.0; SunOS 5.10 sun4u; X11)',
          'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.2pre) Gecko/20100207 Ubuntu/9.04 (jaunty) Namoroka/3.6.2pre',
          'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser;',
      'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)',
      'Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1)',
      'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.0.6)',
      'Microsoft Internet Explorer/4.0b1 (Windows 95)',
      'Opera/8.00 (Windows NT 5.1; U; en)',
      'amaya/9.51 libwww/5.4.0',
      'Mozilla/4.0 (compatible; MSIE 5.0; AOL 4.0; Windows 95; c_athome)',
      'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
      'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
      'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; ZoomSpider.net bot; .NET CLR 1.1.4322)',
      'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0 qihoobot@qihoo.net)',
      'Mozilla/4.0 (compatible; MSIE 5.0; Windows ME) Opera 5.11 [en]']
    gnum=100
    uRLS = []
    counter = 0
        while counter < int(maxc):
                jar = cookielib.FileCookieJar("cookies")
                query = 'q='+go_inurl
                results_web = 'http://www.google.com/cse?'+'cx=011507635586417398641%3Aighy9va8vxw&ie=UTF-8&'+'&'+query+'&num='+str(gnum)+'&hl=en&lr=&ie=UTF-8&start=' + repr(counter) + '&sa=N'
                request_web = urllib2.Request(results_web)
        agent = random.choice(header)
                request_web.add_header('User-Agent', agent)
        opener_web = urllib2.build_opener(urllib2.HTTPCookieProcessor(jar))
                text = opener_web.open(request_web).read()
        strreg = re.compile('(?<=href=")(.*?)(?=")')
                names = strreg.findall(text)
        counter += 100
                for name in names:
                        if name not in uRLS:
                                if re.search(r'\(', name) or re.search("<", name) or re.search("\A/", name) or re.search("\A(http://)\d", name):
                                        pass
                elif re.search("google", name) or re.search("youtube", name) or re.search(".gov", name) or re.search("%", name):
                                        pass
                else:
                                        uRLS.append(name)
    tmpList = []; finalList = []
        for entry in uRLS:
        try:
            t2host = entry.split("/",3)
            domain = t2host[2]
            if domain not in tmpList and "=" in entry:
                finalList.append(entry)
                tmpList.append(domain)
        except:
            pass
    print "[+] URLS (sorted)   :", len(finalList)
    return finalList

также я сделалмного редактирования и до сих пор ничего не происходит!пожалуйста, покажи мне, в чем моя ошибка .. Спасибо, ребята :)

Lix · Answer 1 · 05 апреля 2012

Джро прав, более того, Google периодически меняет формат своих результатов, не ежемесячно, а да, чаще, чем один раз в год, тогда ваше регулярное выражение может потерпеть неудачу, и вам нужно изменить его.

Я сталкивался с подобными проблемами, с которыми вы сталкивались в прошлом, и я выбираю простое решение, эти парни предоставляют скребок google для извлечения всех URL из результатов поиска , который отлично работает, вы укажите ключевые слова, и они будут обрабатывать и анализировать результаты Google и возвращать вам ссылки, привязки, описания и т. д. Это другой подход к решению, но он также может помочь вам.

jro · Answer 2 · 19 декабря 2011

Два вопроса, которые я вижу с этим. Во-первых, вы используете пользовательский поиск Google, который (по-видимому) возвращает только результаты с google.com. Это в сочетании с регулярным выражением, которое ищет вхождение «google» в URL (re.search("google", name)), а при обнаружении не добавление его в список URL приведет к тому, что список URL останется пусто для этого пользовательского поиска.

Кроме того, что еще более важно, ваша логика неверна. С фиксированным форматированием вы в настоящее время делаете это:

if name not in uRLS:
    if re.search(r'\(', name) or re.search("<", name) or re.search("\A/", name) or re.search("\A(http://)\d", name):
        pass
    elif re.search("google", name) or re.search("youtube", name) or re.search(".gov", name) or re.search("%", name):
        pass
    else:
        uRLS.append(name)

(Обратите внимание, что elif и else могут иметь много отступов, но проблема все равно будет сохраняться.)

Поскольку вы проверяете, находится ли name в uRLS, name никогда не будет добавлен в этот список, поскольку логика добавления находится в вашем пути else.

Чтобы исправить это, удалите else, уменьшите отступ оператора append и замените оператор pass на continue.

как получить URL из запроса Google?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как получить URL из запроса Google?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы