Индексация
Если вы хотите приступить к основам:
Google использует перевернутый индекс Интернета. Это означает, что Google имеет индекс всех страниц, которые он сканирует, основываясь на условиях на каждой странице. Например, термин Google соответствует этой странице, главной странице Google и статье Википедии для Google, среди прочих.
Таким образом, когда вы заходите в Google и вводите «Google» в поле поиска, Google проверяет свой индекс всех терминов, доступных в Интернете, и находит запись для термина «Google», а также список всех страниц, которые упомяните в нем этот термин.
Для ветеранов:
Однако индекс Google выходит за рамки вашего простого инвертированного индекса. Вот почему Google является лучшим. Сканеры Google (пауки) умны. Очень умно. Помимо просто отслеживания терминов, которые есть на любой данной веб-странице, они также отслеживают слова на связанных страницах и связывают их с данным документом.
Другими словами, если на странице есть термин Google , а на странице есть ссылка на другую веб-страницу или ссылка на нее, на другую страницу в индексе можно ссылаться под термином Google . Все это и многое другое объясняет, почему данная страница возвращается для данного запроса.
Если вы хотите понять, почему страницы упорядочены так, как они есть в ваших результатах поиска, это станет еще более интересным.
Рейтинг
Чтобы приступить к основам:
Возможно, один из самых основных алгоритмов, которые поисковая система может использовать для сортировки ваших результатов, известен как термин частота-обратная частота документа (tf-idf). Проще говоря, это означает, что ваши результаты будут упорядочены по относительной важности ваших поисковых терминов в документе. Другими словами, документ, имеющий 10 страниц и содержащий слово Google один раз, не так важен, как документ, содержащий 1 страницу и содержащий слово Google десять раз.
Для ветеранов:
Опять же, Google делает намного больше, чем ваша основная поисковая система, когда дело доходит до ранжирования результатов. Google внедрил вышеупомянутый запатентованный алгоритм PageRank. В кратком изложении, PageRank улучшает алгоритм tf-idf, принимая во внимание популярность / важность данной страницы. На данный момент об популярности / важности можно судить по ряду факторов, которые Google просто не скажет нам. Однако на самом базовом уровне Google может сказать, что одна страница важнее другой, потому что на нее ссылается множество других страниц.