О поисковых системах: как они делают скриншоты веб-сайтов? - PullRequest
0 голосов
/ 12 ноября 2009

Это может быть глупый вопрос, но я действительно понятия не имею, и мне очень любопытно! Поэтому, пожалуйста, потерпите меня.

Что я знаю, так это то, что поисковые системы просто читают HTML и слова на сайте. Они обычно игнорируют CSS или его часть. Возможно, они не могут читать изображения. Они?

Если они действительно не могут или игнорируют, чтобы прочитать их, тогда мой вопрос заключается в том, как они делают скриншот, который представляет собой страницу, которая отображается так же, как это делает CSS, и имеет изображения.

Если они не читают CSS, изображения, а также им не нравится, когда люди открывают его на своем экране. Как они делают скриншот?
Спасибо!

Ответы [ 4 ]

1 голос
/ 12 ноября 2009

Вы имеете в виду новую функцию скриншотов Google или их старую функцию кэширования? Ваш вопрос говорит о скриншотах и ​​вообще не упоминает кеш, но ваши комментарии по вашему вопросу, похоже, подразумевают, что вы имеете в виду кеш, а не скриншоты.

В случае скриншотов:

Вы правы в том, что поисковые системы обычно читают только HTML и текст на веб-сайте, потому что это все, что им нужно. Но это не значит, что они не могут .

Когда они хотят сделать снимок экрана сайта, они просто будут делать то же, что и обычный браузер, когда пользователь заходит на сайт. Загрузите веб-сайт, CSS, изображения и все остальное, и выполните рендеринг с помощью механизма рендеринга веб-браузера, такого как WebKit.

В случае кеша:

Поисковая система обычно просто сохраняет HTML без / перед его анализом. Он отправляет сохраненный HTML-код в ваш браузер, и ваш браузер извлекает все остальные элементы на странице (изображения и т. Д.) С исходного веб-сайта. Поисковая система ничего не читает, она просто сохраняет дословно страницу (ну, с небольшими изменениями, а именно перезаписью URL) и передает ее в ваш браузер.

1 голос
/ 12 ноября 2009

Существуют приложения, которые делают снимок экрана страниц, как если бы они отображались в выбранном браузере.

Browershot является примером онлайн-сервиса, который делает это.

Вот несколько ссылок и проектов генератора миниатюр веб-страниц:

0 голосов
/ 12 ноября 2009

Поисковая система не использует CSS и контент изображений для индексации, но может хранить их на своих серверах для создания кэшированной версии сайта.

В случае с Google я думаю, что они хранят только текстовые файлы, так что HTML, CSS, возможно, javascript, но не изображения.

0 голосов
/ 12 ноября 2009

Может быть, я не понимаю ваш вопрос, но ...

Вы, кажется, используете "читать изображение", чтобы означать загрузку данных из изображения в поисковую систему. Это делает поисковая система (включая CSS). Когда люди говорят, что поисковые системы игнорируют изображения, они имеют в виду, что они не воспринимают их как полезные для поиска данные. Другими словами, если я создаю изображение со словом «Привет», мы с вами «читаем» в том смысле, что мы видим и понимаем, что изображение содержит слово. Поисковая система обычно не пытается сделать это, однако поисковая система «считывает» изображение в его хранилище, если хочет иметь возможность представить его пользователю позже.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...