Как скрести изображения с веб-сайта с помощью JavaScript и сервлетов - PullRequest
1 голос
/ 27 января 2010

У меня есть веб-страница со следующим содержимым (я изменил URL в теге src в целях конфиденциальности, в противном случае просмотр источника страницы идентичен):

<HTML>
<BODY>

<script type="text/javascript" src="http://localhost/servlet?publicKey=abcdefg12345678&amp"></script>

</BODY>
</HTML>

Полученная страница отображает изображение при просмотре в браузере, и я пытаюсь очистить это изображение. После того, как я очищаю изображение, я пытаюсь проиндексировать изображения (см. Www.tineye.com для идеи поисковой системы изображений) и сохранить их. Если кто-нибудь знает, как чистить изображения с таких веб-сайтов, пожалуйста, дайте мне знать.

Примечание: src не содержит ЛЮБОЙ информации об изображении ... он вызывает только данный сервлет с открытым ключом в качестве параметра. То, что я опубликовал выше, это именно то, что я вижу, когда нажимаю «Просмотр» -> «Источник страницы» в моем браузере (Firefox). Конечно, я изменил фактический URL и открытый ключ для вопросов конфиденциальности, в остальном все идентично.

Мне показалось, что похожие методы используются для некоторых баннеров: http://coldjava.hypermart.net/servlets/banner.htm

Ответы [ 2 ]

1 голос
/ 27 января 2010

Вместо сохранения локальной копии файла HTML, вы должны сохранить локальную копию файла JavaScript, чтобы увидеть, как именно он добавляет изображение в DOM файла HTML. Это должно позволить вам понять, как составлять запросы для получения нужных вам изображений.

1 голос
/ 27 января 2010

JavaScript, вероятно, манипулирует DOM и добавляет изображение. Поэтому изображение (.jpg, .png или .gif) должно находиться где-то внутри файла JavaScript и выглядеть примерно так:

var image = new Image("/path/to/image.jpg");

Вы можете использовать регулярные выражения, чтобы отфильтровать путь и имя файла из кода JavaScript.

...