Как вы скачиваете сайт? - PullRequest
       12

Как вы скачиваете сайт?

3 голосов
/ 14 декабря 2010

Боты поисковых систем сканируют Интернет и загружают каждую страницу, на которую они ходят для анализа, верно?

Как именно они скачивают страницу? Как они хранят страницы?

Я спрашиваю, потому что я хочу провести анализ на нескольких веб-страницах. Я мог бы почистить страницу, перейдя по адресу, но не имеет ли больше смысла загружать страницы на мой компьютер и работать с ними оттуда?

Ответы [ 3 ]

8 голосов
/ 14 декабря 2010

wget --mirror

7 голосов
/ 14 декабря 2010

Попробуйте HTTrack

О том, как они это делают:
Индексация начинается с обозначенной начальной точки (входа, если вы предпочитаете).Оттуда, паук рекурсивно следует за всеми гиперссылками до заданной глубины.

Пауки поисковой системы работают так же, как это , но есть много ползущих одновременно, и другие факторы учитываются.Например, недавно созданный пост здесь, в SO, будет очень быстро найден Google, но обновление на веб-сайте с низким трафиком будет получено даже через несколько дней.

2 голосов
/ 14 декабря 2010

Вы можете использовать инструменты отладки, встроенные в Firefox (или firebug) и Chrome, чтобы проверить, как работает страница. Что касается их прямой загрузки, я не уверен. Вы можете попробовать просмотреть исходный код страницы в своем браузере, а затем скопировать и вставить код.

...