Как Google и другие поисковые системы определяют ключевые слова? - PullRequest
0 голосов
/ 02 декабря 2009

Во-первых, кажется, что этот вопрос не имеет отношения к программе, однако я все же решил опубликовать этот вопрос здесь, поскольку на нем есть непрозрачное определение. Если вы считаете, что это неправильно, не стесняйтесь удалить его.

Мне интересно, как Google и другие поисковые системы определяют ключевые слова? Они просто находят ключевые слова, как мы, используя CTRL + F и подсчитывая, или они используют некоторые неясные семантические технологии для выделения ключевых слов?

Причина, по которой я задаю этот вопрос, заключается в том, что, когда я проверяю кэшированные страницы в поисковых системах, они обычно представляют ключевые слова в разных цветах. Как этот:

http://74.125.153.132/search?q=cache:YKq3QHbl0RwJ:www.autotrader.com/+car&cd=1&hl=en&ct=clnk&client=firefox-a

Но, похоже, они не учитывают ключевые слова car в слове типа carpad . Пока, как известно, CTRL + F продолжение автомобиль из карпад .

Итак, мой вопрос: если я добавлю название компании, например, carpad или cardoctor , полезно ли это для ключевого слова car.

Отказ от ответственности: Автомобиль, carpad и URL, который я указал, являются лишь примерами. И я надеюсь, что прояснился.
Заранее спасибо!

Ответы [ 2 ]

2 голосов
/ 02 декабря 2009

Одним из основных методов, которые они используют, является текст ключевых слов, размещенных в ссылках на этот сайт. Например, когда вы ссылаетесь на статью о крушителях партии Обамы - обратите внимание, что текст ссылки был "Крушители партии Обамы". Google может определить, что сайт назначения относится к этой теме.

Далее используются рекурсивные выводы. Если я знаю, что сайты A и B относятся к теме X, и они оба ссылаются на сайт C, я могу предположить, что сайт C также относится к теме X.

Далее, это актуальный текстовый анализ содержимого сайта. Такие методы, как TF / IDF , используются для определения наиболее релевантных ключевых слов из содержимого данной страницы.

0 голосов
/ 02 декабря 2009

Существует несколько методов, которые используют поисковые системы, чтобы определить, есть ли на странице информация об «автомобилях»:

  1. "Автомобили" упоминаются непосредственно на странице

  2. Внешние ссылки имеют "автомобили" в тексте привязки

  3. Либо ключевые слова семантически близки к "автомобилям", например "транспортным средствам"

  4. Они также рассматривают отличительные характеристики страниц и распределение уникальных ключевых слов. Например, если поисковые системы знают, что на многих страницах об «автомобилях» есть также «страховка» и «шины», то они могут догадаться, что страницы, на которых присутствуют «страховка» и «шины», скорее всего, будут «автомобили» хорошо, даже если это ключевое слово не присутствует напрямую. Как и в случае распознавания образов, вы видите, что большинство характеристик совпадают, вы предполагаете, что целое должно совпадать с большой вероятностью.

и различные другие техники ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...