Программная загрузка большого количества <вставить тип файла сюда> - PullRequest
3 голосов
/ 31 мая 2011

Мне интересно, есть ли простой способ загрузить большое количество файлов одного произвольного типа, например, загрузить 10000 файлов XML.В прошлом я использовал API Bing.Это бесплатно и предлагает неограниченное количество запросов.Однако он не индексирует столько типов файлов, сколько делает Google.Google индексирует XML-файлы, CSV-файлы и KML-файлы.(Все это можно найти, выполнив поиск типа «filetype: XML».) Насколько я знаю, Bing не индексирует их так, чтобы их можно было легко найти.Есть ли другой API с такими возможностями?

1 Ответ

0 голосов
/ 19 июля 2011

Как насчет использования wget? Вы можете дать wget URL-адрес (например, результат поиска в Google) и попросить его перейти по всем ссылкам на этой странице и загрузить их (держу пари, вы могли бы также дать ему фильтр).

Только что попробовал и получил ERROR 403: Forbidden. Видимо Google блокирует запросы от Wget. Вам нужно будет предоставить другого агента пользователя. Быстрый поиск предоставил этот пример:

http://www.mail-archive.com/wget@sunsite.dk/msg06564.html

Тогда это сработало с приведенным примером.

...