Как загрузить изображения из "результата поиска Викимедиа", используя wget? - PullRequest
0 голосов
/ 18 декабря 2010

Мне нужно зеркально отразить все изображения, которые появляются на этой странице:

http://commons.wikimedia.org/w/index.php?title=Special:Search&ns0=1&ns6=1&ns12=1&ns14=1&ns100=1&ns106=1&redirs=0&search=buitenzorg&limit=900&offset=0

Результат зеркального отображения должен давать нам изображения в полном размере, а не миниатюры,Каков наилучший способ сделать это с помощью wget?

ОБНОВЛЕНИЕ:
Извините, что дал вам неработающую ссылку в прошлом, и эта тема была отклонена :(. Я обновляюРешение в проверенных ответах ниже.

Ответы [ 3 ]

0 голосов
/ 21 июля 2011

Довольно сложно написать весь скрипт в редакторе stackoverflow, вы можете найти скрипт по адресу ниже.Сценарий загружает только все изображения на первой странице, вы можете изменить его для автоматизации процесса загрузки на другой странице.

http://pastebin.com/xuPaqxKW

0 голосов
/ 25 июля 2011

Пришел сюда с той же проблемой .. нашел это >> http://meta.wikimedia.org/wiki/Wikix

У меня нет доступа к машине с Linux, поэтому я еще не пробовал.

0 голосов
/ 18 декабря 2010

Regex твой друг мой друг!Используя cat, egrep и wget, вы справитесь с этой задачей довольно быстро. Загрузите URI результатов поиска wget, затем запустите

cat DownloadedSearchResults.html | egrep (?<=class="searchResultImage".+href=").+?\.jpg/

. Это даст вам http://commons.wikimedia.org/ ссылки на каждую из веб-страниц изображения.,Теперь для каждого из этих результатов загрузите его и запустите:

cat DownloadedSearchResult.jpg | egrep (?<=class="fullImageLink".*href=").+?\.jpg

Это должно дать вам прямую ссылку на самое высокое разрешение, доступное для этого изображения.

Надеюсь, ваши знания bashсделаем все остальноеУдачи.

...