Как Google использует HTML-теги для улучшения поисковой системы? - PullRequest
11 голосов
/ 20 июля 2009

Я знаю, что алгоритм поиска Google в основном основан на поиске страниц. Однако он также выполняет анализ и использует структуру документа H1, H2, title и другие теги HTML для улучшения результатов поиска.

Как называется этот метод "использование структуры документа для улучшения результатов поиска"?

И есть ли какие-нибудь научные статьи, которые помогут мне изучить эту область?

Тот факт, что Google учитывает структуру HTML, хорошо освещен в статьях SEO, однако я не смог найти ее в научных статьях.

Ответы [ 14 ]

17 голосов
/ 20 июля 2009

Я думаю, что это называется "Семантическая разметка"

[...] семантическая разметка - это разметка, достаточно описательная, чтобы позволить нам и машинам, которые мы запрограммировали, распознать ее и принять решение о ней. Другими словами, разметка что-то означает, когда мы можем ее идентифицировать и делать с ней полезные вещи. Таким образом, семантическая разметка становится не просто описательной. Это становится блестящим механизмом, который позволяет людям и машинам «понимать» одну и ту же информацию. http://www.digital -web.com / статьи / writing_semantic_markup /

Более практичная статья здесь http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

12 голосов
/ 20 июля 2009

SEO стало почти религией для некоторых людей, где они помешаны на мелочах. Честно говоря, я не уверен, что все эти усилия оправданы.

Мой совет? Не обращайте внимания на то, что говорят так называемые эксперты, и просто следуйте рекомендациям Google .

Возможно, вы ищете академический ответ, но, честно говоря, это не академический вопрос, кроме самых основ того, как работает индексация в Интернете. Реальность современного алгоритма индексации и ранжирования страниц гораздо сложнее.

Возможно, вы захотите взглянуть на одну из ранних работ в поисковых системах . Обратите внимание на имена авторов. Вы также можете прочитать Заявка на патент Google 20050071741 .

Помимо этих общих принципов, Алгоритм поиска Google постоянно дорабатывается на основе реальных и желаемых результатов. Точная работа - это тщательно охраняемый секрет, чтобы людям было сложнее играть в систему. Большая часть «советов» или описаний того, как работает алгоритм поиска Google, является чисто предположением.

Таким образом, помимо заголовка, правильного и корректного HTML, я не думаю, что вы найдете то, что ищете.

4 голосов
/ 28 июля 2009

Google очень сознательно не выдает слишком много информации об алгоритме поиска, поэтому вряд ли вы найдете определенный ответ или академическую статью, подтверждающую это. Если вы заинтересованы с точки зрения SEO, просто напишите свои страницы, чтобы они были полезны для людей, и роботам они тоже понравятся.

Чтобы сделать страницу удобной для людей, вы ДОЛЖНЫ использовать теги, такие как h1, h2 и т. Д., Чтобы создать иерархическую структуру страницы ... как-то так ...

h1 "Свяжитесь с нами" ... h2 "Контактная информация" ...... h3 "Телефонные номера" ...... h3 "Адреса электронной почты" ... h2 "Как нас найти" ...... h3 "На машине" ...... h3 "Поездом"

Сложность вашего вопроса в том, что если вы добавите что-то в тег h1, надеясь, что это повысит вашу позицию в Google, но не совпадет с другим содержанием на вашей странице, вы можете выглядеть так, как будто вы спамуете. Точно так же, если ваша страница состоит из слишком большого количества заголовков и недостаточно фактического содержания, вы можете выглядеть так, как будто вы спам. Это не так просто, как добавить теги h1 и h2, и вы пойдете вверх! Вот почему вам нужно писать сайты для людей, а не для роботов.

2 голосов
/ 31 июля 2009

Вы также можете попробовать поискать в разделе «Компьютерные науки» arXiv: http://arxiv.org для «поисковой системы» и различных терминов, предложенных другими.

В нем содержится много научных статей, все в свободном доступе ... надеюсь, некоторые из них будут иметь отношение к вашему исследованию. (Конечно, действует оговорка о проверке содержания любого документа.)

2 голосов
/ 31 июля 2009

Выезд http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/

Некоторое время, проведенное на scholar.google.com , может помочь вам найти то, что вы ищете

2 голосов
/ 25 июля 2009

Я нашел эту статью:

Новое исследование по использованию структур HTML для улучшения поиска

однако это старая бумага 1999,

все еще ищет более свежие статьи.

1 голос
/ 01 августа 2009

Чтобы было больно просто. Сделайте вашу информационную архитектуру логичной. Если наиболее важные элементы для понимания пользователя выделены заголовками и логически сгруппированы, тогда документ легче интерпретировать с помощью алгоритмов обработки информации. Волшебным образом, пользователям также будет легче интерпретировать. Помните, что алгоритмы поисковой системы были написаны людьми, пытающимися интерпретировать язык.

Основной процесс: Напишите хорошо структурированный HTM L - используя заголовочные теги, чтобы указать наиболее важные элементы на странице. Используйте логические теги, основанные на структуре вашей информации. Списки для списков, заголовки для основных тем.

Укажите соответствующие теги alt и имена для любых визуальных элементов, а затем используйте простые CSS для упорядочивания этих элементов.

Если сайт хорошо работает для пользователей и содержит соответствующую информацию, вы не рискуете оказаться в черном списке спамеров, и алгоритмы поисковых систем будут благоприятствовать вашей странице.

Мне очень понравилась книга Превосходящий CSS для ясного объяснения правильно структурированного HTML.

1 голос
/ 01 августа 2009

Короче говоря; очень осторожно. В длинных:

Цитата из анатомия крупномасштабной гипертекстовой поисковой системы erb:

[...] Это дает нам некоторые ограниченные поиск фразы, пока есть не так много якорей для конкретного слово. Мы рассчитываем обновить способ, которым якорные хиты сохраняются для большее разрешение в положении и поля docIDhash. Мы используем размер шрифта относительно остальной части документа потому что при поиске вы не хотите оценить иначе идентичные документы по-разному только потому, что один из документов в большем шрифт. [...]

Продолжается:

[...] Еще одна большая разница между Интернет и традиционные хорошо контролируемые коллекции практически не контролирует то, что люди могут выложить в сети . Пара эта гибкость публиковать что-либо с огромным влиянием поиска двигатели для маршрутизации трафика и компаний который намеренно манипулирует поиском двигатели для получения прибыли становятся серьезными проблема. Эта проблема, которая не имеет обращались в традиционные закрытые информационно-поисковые системы. Кроме того, интересно отметить, что Усилия метаданных в основном потерпели неудачу с веб-поисковыми системами, потому что любой текст на странице, который не является прямым представленный пользователю злоупотребляет манипулировать поисковыми системами. [...]

Проблемы в поисковой системе решают эти проблемы более современным способом:

[...] Веб-страницы в HTML попадают в середину этого континуума структуры в документах, не будучи близки ни к свободному тексту, ни к хорошо структурированным данным. Вместо этого HTML-разметка предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но предоставляет подсказки о семантической информации. Информация о макете в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые могут использоваться для Содержимое тега, но на самом деле это особенно ценный источник метаданных в ненадежных корпорациях , таких как Интернет. Значение информации макета проистекает из того факта, что она видна пользователю [... ]:

И добавляет:

[...] HTML-теги могут быть проанализированы на предмет того, какая семантическая информация может быть выведена. В дополнение к тегам заголовка, упомянутым выше, есть теги, которые управляют шрифтом (жирным шрифтом, курсивом), размером и цветом. Их можно проанализировать, чтобы определить, какие слова в документе автор считает особенно важными. Одним из преимуществ HTML или любого языка разметки, который очень близко соответствует отображению контента, является то, что существует меньше возможностей для злоупотреблений: трудно использовать разметку HTML таким образом, который заставляет поисковые системы думать, что помеченный текст важен , в то время как пользователям это кажется неважным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет заметно виден на визуализированной веб-странице, поэтому для поисковых систем безопасно взвешивать этот текст высоко. Однако надежность разметки HTML снижается за счет каскадных таблиц стилей, которые отделяют имена тегов от их представления. Было проведено исследование по извлечению информации из структуры HTML. Например, [Chakrabarti etal, 2001; Чакрабарти, 2001] создал дерево DOM HTML-страницы и использовал эту информацию для повышения точности тематической дистилляции, метода анализа на основе ссылок.

Существует ряд проблем, с которыми современный поисковик должен бороться, например, веб-спам и схемы SEO.

Но даже в идеальном мире, например после удаления плохих парней из индекса сеть все еще остается беспорядком, потому что никто не имеет идентичных структур. Есть карты, игры, видео, фотографии (Flickr) и много-много пользовательского контента. Другими словами, сеть все еще очень непредсказуема.

Ресурсы

1 голос
/ 28 июля 2009

Я бы также предложил посмотреть Микроформаты и RDF. Оба используются для улучшения поиска. Они в основном независимы от поисковых систем, но есть и определенные особенности. Чтобы ознакомиться с конкретными рекомендациями Google по содержанию HTML, прочитайте эту ссылку .

1 голос
/ 25 июля 2009

Я полагаю, что то, что вас интересует, называется структурной идентификацией и часто используется для определения сходства двух структур. В случае Google, применение веса к различным тегам и применение к секретному алгоритму, который (вероятно) использует частоты различных элементов в отпечатке пальца. Это глубоко рушится в теории информации - если вы ищете научные статьи по теории информации, я бы начал с «Математическая теория коммуникации» Клода Шеннона

...