Как «захватить» контент с другого сайта - PullRequest
0 голосов
/ 01 августа 2010

Друг спросил меня об этом, и я не смог ответить.

Он спросил: я делаю этот сайт, где вы можете заархивировать свой сайт ...

Это работает следующим образом: вы заходите на свой сайт, как то, что-то, а затем наш сайт захватывает контент на этом сайте, как изображения, и все это и загружает его на наш сайт. Тогда люди смогут просмотреть точную копию сайта по адресу oursite.com/something.com, даже если сервер, на котором размещен что-то.com, не работает.

Как он мог это сделать? (php?) и какие будут некоторые требования?

Ответы [ 3 ]

1 голос
/ 01 августа 2010

Похоже, вам нужно создать веб-сканер.Сканеры могут быть написаны на любом языке, хотя я бы порекомендовал для этого использовать C ++ (с использованием cURL), Java (с использованием URLConnection) или Python (w / urrlib2).Вы также можете быстро взломать что-нибудь вместе с командами curl или wget и BASH, хотя это, вероятно, не лучшее долгосрочное решение.Кроме того, не забывайте, что вы должны загружать, анализировать и уважать файл «robots.txt», если он присутствует всякий раз, когда вы сканируете чей-то сайт.

0 голосов
/ 01 августа 2010
  1. Получить HTML с помощью curl.
  2. Теперь измените все изображения, CSS, Javascript на абсолютные URL, если они являются относительными URL. (Это немного неэтично). Вы можете получить все эти ресурсы и разместить на своем сайте.
  3. Уважайте robots.txt всех сайтов. читайте здесь .
0 голосов
/ 01 августа 2010

Используйте wget. Либо версия linux, либо версия windows из пакета gnuwin32. получите это здесь .

...