Я задал вопрос о реализации общей идеи сканирования и сохранения веб-страниц.Часть первоначального вопроса: как сканировать и сохранять много страниц «О программе» из Интернета.
После некоторых дальнейших исследований у меня есть несколько вариантов, как для анализа, так и для анализа (перечислены навнизу).
Сегодня я столкнулся с другим Рубиновым обсуждением о том, как извлечь из результатов поиска Google.Это дает отличную альтернативу для моей задачи, которая сэкономит все усилия на сканируемой части.
Новый вопрос : в Python, scrape Результаты поиска Googleдля данного ключевого слова, в данном случае «О», и, наконец, получить ссылки для дальнейшего анализа.Каковы наилучшие варианты методов и библиотек?(в плане простоты в освоении и простоте реализации).
ps на этом сайте , то же самое реализовано, но закрыто и просят денег за дополнительные результаты.Я бы предпочел сделать это сам, если бы не было доступного с открытым исходным кодом, и в то же время узнать больше о Python.Тем не менее, легкий в освоении и простой в реализации.Только начал изучать Python.: P
Окончательное обновление , проблема решена.Код с использованием xgoogle. Пожалуйста, прочтите примечание в разделе ниже, чтобы заставить xgoogle работать.
import time, random
from xgoogle.search import GoogleSearch, SearchError
f = open('a.txt','wb')
for i in range(0,2):
wt = random.uniform(2, 5)
gs = GoogleSearch("about")
gs.results_per_page = 10
gs.page = i
results = gs.get_results()
#Try not to annnoy Google, with a random short wait
time.sleep(wt)
print 'This is the %dth iteration and waited %f seconds' % (i, wt)
for res in results:
f.write(res.url.encode("utf8"))
f.write("\n")
print "Done"
f.close()
Примечание на xgoogle (ниже ответил Майк Пеннингтон): последняя версияиз-за этого Github по умолчанию уже не работает, возможно, из-за изменений в результатах поиска Google.Эти два ответа ( a b ) на домашней странице инструмента дают решение, и в настоящее время он все еще работает с этой настройкой.Но, может быть, в какой-то другой день он может перестать работать из-за изменения / блокировки Google.
Ресурсы, известные до сих пор:
Для очистки, Scrapy кажется популярным выбором, и веб-приложение под названием ScraperWiki очень интересно, и есть другой проект , извлекающий свою библиотеку для автономного / локального использования. Механизм тоже несколько раз поднимался в разных дискуссиях.
Для разбора HTML BeautifulSoup кажется одним из самых популярныхвыбор.Конечно. lxml тоже.