Короче говоря; очень осторожно. В длинных:
Цитата из анатомия крупномасштабной гипертекстовой поисковой системы erb:
[...] Это дает нам некоторые ограниченные
поиск фразы, пока есть
не так много якорей для конкретного
слово. Мы рассчитываем обновить способ, которым
якорные хиты сохраняются для
большее разрешение в положении и
поля docIDhash. Мы используем размер шрифта
относительно остальной части документа
потому что при поиске вы не
хотите оценить иначе идентичные
документы по-разному только потому, что один
из документов в большем
шрифт. [...]
Продолжается:
[...] Еще одна большая разница между
Интернет и традиционные хорошо контролируемые коллекции
практически не контролирует то, что
люди могут выложить в сети . Пара
эта гибкость публиковать что-либо
с огромным влиянием поиска
двигатели для маршрутизации трафика и компаний
который намеренно манипулирует поиском
двигатели для получения прибыли становятся серьезными
проблема. Эта проблема, которая не имеет
обращались в традиционные закрытые
информационно-поисковые системы. Кроме того,
интересно отметить, что
Усилия метаданных в основном потерпели неудачу
с веб-поисковыми системами, потому что любой
текст на странице, который не является прямым
представленный пользователю злоупотребляет
манипулировать поисковыми системами. [...]
Проблемы в поисковой системе решают эти проблемы более современным способом:
[...] Веб-страницы в HTML попадают в середину этого континуума структуры в документах, не будучи близки ни к свободному тексту, ни к хорошо структурированным данным. Вместо этого HTML-разметка предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но предоставляет подсказки о семантической информации. Информация о макете в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые могут использоваться для Содержимое тега, но на самом деле это особенно ценный источник метаданных в ненадежных корпорациях , таких как Интернет. Значение информации макета проистекает из того факта, что она видна пользователю [... ]:
И добавляет:
[...] HTML-теги могут быть проанализированы на предмет того, какая семантическая информация может быть выведена. В дополнение к тегам заголовка, упомянутым выше, есть теги, которые управляют шрифтом (жирным шрифтом, курсивом), размером и цветом. Их можно проанализировать, чтобы определить, какие слова в документе автор считает особенно важными. Одним из преимуществ HTML или любого языка разметки, который очень близко соответствует отображению контента, является то, что существует меньше возможностей для злоупотреблений: трудно использовать разметку HTML таким образом, который заставляет поисковые системы думать, что помеченный текст важен , в то время как пользователям это кажется неважным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет заметно виден на визуализированной веб-странице, поэтому для поисковых систем безопасно взвешивать этот текст высоко. Однако надежность разметки HTML снижается за счет каскадных таблиц стилей, которые отделяют имена тегов от их представления. Было проведено исследование по извлечению информации из структуры HTML. Например, [Chakrabarti etal, 2001; Чакрабарти, 2001] создал дерево DOM HTML-страницы и использовал эту информацию для повышения точности тематической дистилляции, метода анализа на основе ссылок.
Существует ряд проблем, с которыми современный поисковик должен бороться, например, веб-спам и схемы SEO.
Но даже в идеальном мире, например после удаления плохих парней из индекса сеть все еще остается беспорядком, потому что никто не имеет идентичных структур. Есть карты, игры, видео, фотографии (Flickr) и много-много пользовательского контента. Другими словами, сеть все еще очень непредсказуема.
Ресурсы