Как соскрести полноразмерные изображения с сайта? - PullRequest
0 голосов
/ 07 марта 2012

Я пытаюсь получить клинические изображения пациентов с псориазом с этих двух веб-сайтов для исследовательских целей:

http://www.dermis.net/dermisroot/en/31346/diagnose.htm

http://dermatlas.med.jhmi.edu/derm/

Для первого сайта я попытался просто сохранить страницу с помощью Firefox, но он сохранил только миниатюры, а не полноразмерные изображения. Я смог получить доступ к полноразмерным изображениям с помощью аддона Firefox под названием «downloadthemall», но он сохранил каждое изображение как часть новой html-страницы, и я не знаю ни одного способа извлечь только изображения.

Я также пытался подключиться к одной из машин linux моего университета и использовать wget для зеркалирования веб-сайтов, но я не смог заставить его работать, и до сих пор не знаю, почему.

Следовательно, мне интересно, будет ли легко написать короткий сценарий (или любой другой способ, который проще всего), чтобы (а) получить полноразмерные изображения, на которые есть ссылки на первом веб-сайте, и (б) получить все полноразмерные размер изображения на втором сайте с "псориазом" в имени файла.

Я программирую пару лет, но у меня нулевой опыт веб-разработки, и я буду признателен за любые советы о том, как это сделать.

Ответы [ 2 ]

2 голосов
/ 07 марта 2012

Почему бы не использовать wget для рекурсивной загрузки изображений из домена? Вот пример:

wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.domain.com

Вот справочная страница: http://www.gnu.org/software/wget/manual/wget.html

0 голосов
/ 07 марта 2012

Попробуйте копир сайта HTTrack - он загрузит все изображения на сайте.Вы также можете попробовать http://htmlparser.sourceforge.net/. Он также захватит веб-сайт с ресурсами, если вы укажете его в org.htmlparser.parserapplications.SiteCapturer

...