Gap.com перенаправляет меня, когда я пытаюсь очистить экран - PullRequest
0 голосов
/ 30 июня 2010

Мы создаем сайт, который позволяет пользователям собирать и хранить свои любимые продукты со всего Интернета в одном месте.У нас есть алгоритм, который отфильтровывает и находит правильное изображение, читая исходный код.80% сайтов работают правильно, но 2 крупные компании блокируют перенаправление нас со страницы продукта на свою домашнюю страницу.

Например, этот продукт http://www.gap.com/browse/product.do?pid=741123&kwid=1&sem=false&sdReferer=http://www.gap.com/products/graphic-ts-toddler-boy-clothing-C35792.jsp# выбирает заголовок главной страницы gap.com, а не продукта под рукой.

Как нам обойти это перенаправление и позволяет нашему алгоритму собирать правильное изображение, читая правильный исходный код?

Ответы [ 2 ]

2 голосов
/ 30 июня 2010

Во-первых, вы можете попросить адвоката изучить условия обслуживания ваших целевых веб-сайтов и убедиться, что у вас не возникнет юридических проблем.

С технической стороны, при запросе изображения установите заголовок Referer [sic] . Ссылкой на изображение должна быть страница, на которой оно встроено. Сервер может проверить это, чтобы убедиться, что изображение запрашивается для отображения страницы браузером, а не скребком экрана для сбора изображений.


После небольшого тестирования с изображением, оно не выглядит как заголовок Referer. Возможно, он просто отклоняет незнакомый пользовательский агент или отключает какую-то другую странность в запросе, например отсутствующий заголовок Accept и т. Д.

0 голосов
/ 30 июня 2010

Я бы подумал, что вам нужно изменить строку пользовательского агента вашего скребка на что-то, похожее на обычный браузер (вы, вероятно, отправляете строку вроде curl или wget по умолчанию).

Тем не менее, есть большая вероятность, что, если вы отправите достаточное количество трафика на их пути, они в конечном итоге заметят и закроют вас более сложным способом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...