Как сканировать ссылки на определенный домен с помощью поиска в Google? - PullRequest
1 голос
/ 20 сентября 2011

У меня есть набор текстов индийских песен, и мне нужно отметить их год выпуска для эксперимента, над которым я работаю.

Существует веб-сайт (lyricsindia.net), который содержит исчерпывающую базу данных этих текстов с годами, но, к сожалению, текст на сайте не может быть найден. Вместо этого, когда я использую часть текста в качестве строки поиска, ссылка на песню на lyricsindia.net всегда находится в топ-10 результатов.

Теперь мне было интересно, можно ли с помощью каркасов сканирования в Интернете, таких как scrapy, использовать строку поиска в качестве отправной точки для сканирования. Каждый учебник по Scrapy, с которым я сталкивался, начинается с начального URL.

1 Ответ

0 голосов
/ 20 сентября 2011

Ваша поисковая строка может быть частью URL с Scrapy.что-то вроде google.com?q=my+string

Или вы можете получить форму поиска и заполнить ее строкой, например:

return [FormRequest.from_response(response,
            formdata={'search': 'you\'re search string'},
            callback=self.parse)]

Уверен, Scrapyможет делать то, что вы хотите.

...