Как какой-то сайт с поддельными ссылками отображается в результатах поиска - PullRequest
8 голосов
/ 03 ноября 2011

В наши дни я сталкиваюсь с несколькими результатами поиска Google, которые содержат сайты со ссылками, которые точно соответствуют моим поисковым словам.Как сайты могут динамически изменять свое содержание, или, скорее, они дурачат Google, чтобы они проиндексировали свою страницу по моему ключевому слову.Я читал о содержательных фермах, но это не правильный ответ.Может кто-нибудь дать мне знать, как называется эта техника?Я постараюсь понять об этом больше.

Ответы [ 2 ]

8 голосов
/ 29 марта 2012

Насколько я понимаю, единственный способ войти в Google или любой другой механизм индексации - это заставить робота сканировать ваш сайт и генерировать результаты. Очевидно, что Google может сканировать динамические сайты:

однако я считаю, что это эволюционное, а не революционное изменение в отношении вашего вопроса.

То, что я думаю, происходит за кулисами, это сочетание этих вещей:

  • Индекс содержания
  • Подготовленный индекс
  • Пользовательский контент
  • Поиск обновлений реферера

Я попытаюсь объяснить каждый из них на вымышленном сайте, который продает музыку - у вас есть много примеров для сравнения опыта. Это, конечно, будет на домене example.com.

Индекс содержания

Очевидно, что как сайт, который хочет что-то предложить, у вас действительно есть какой-то контент. Обычно вы как-то группируете это содержимое. Давайте предположим, что наш музыкальный сайт может группировать контент по разным категориям:

  • Автор
  • Музыкальный жанр
  • Пользователь отправил
  • Рейтинги контента

Каждый из них может быть абстрактно представлен в виде тега. Например, наш сайт может выбрать, чтобы example.com/tags/eagles представлял Eagles или example.com/tags/rock для представления всех рок-групп. Google сможет проиндексировать их, поэтому любой потенциальный поиск может дать ссылку на наш сайт.

Подготовленный индекс

Подготовленный индекс похож, но это общий индекс, а не реальный контент. Это может быть подготовлено несколькими способами, такими как:

  • Возьми словарь и добавь все слова
  • Просканируйте несколько миллионов страниц из Интернета (возможно, используя ссылки, предоставленные поисковыми системами!) И получайте оттуда часто повторяющиеся фразы
  • Получение контента с бесплатных форумов
  • Использование Википеда
  • Получить текст из свободно доступных книг, например, из Project Gutenberg

Наш сайт, например, будет получать любые слова из текстов, которые каким-либо образом связаны с музыкой, и делать теги похожими на предыдущие. Например. просто просматривая страницу Rock music в Википедии, вы можете получить много тегов.

Пользовательский контент

Обычно это происходит после того, как ваш сайт запущен и работает. Допустим, мы разместили окно поиска на нашем сайте, а затем пришли пользователи и набрали «рок-музыка». До, мы уже знали это, так что ничего хорошего из этого поиска. Однако, допустим, мы просматриваем логи нашего веб-сервера и видим некоторые поиски langeleik . Теперь это было бы то, что мы не могли бы индексировать раньше. Круто, просто сгенерировал еще один тег на нашем сайте.

Очевидно, Google этого не знает - поэтому мы создаем запись в нашей карте сайта , и она появляется после очередного сканирования роботом Google. Когда пользователь ищет в Google «langeleik», одной из ссылок может быть ссылка на example.com/tags/langeleik.

.

Существуют другие и, возможно, гораздо более ценные формы ввода данных пользователем - комментарии, сообщения на форуме и т. Д. Следовательно, существует множество общих форумов, которые не имеют никакой другой цели, кроме хостинга форумов. Это отличный источник данных, и вы получаете новый контент бесплатно.

В конце концов все это должно перейти на карту сайта вашего сайта. Вы можете иметь огромные карты сайта, посмотрите это:

1083 * Рефералы * Последнее - это рефералы. Опять же, после того, как ваш сайт запущен и работает, некоторые из поисков Google придут непосредственно к вам. Именно тогда вы можете воспользоваться заголовком HTTP Referer (да, это ошибочное написание - проверьте его в Wikipedia ), посмотрите это: Можно ли получить поисковый запрос из поиска Google? Обратите внимание, что поиск Google является одновременно: Неполное Нечеткий Таким образом, вы можете искать "langeleik" выше, но некоторые ссылки имеют название, например, "Langeleik and Harpe".Ничего необычного, но обратите внимание и на обратное - если вы ищете «langeleik and harpe», он найдет не только все страницы с обоими терминами, но также страницы с тем или другим.Если мы знаем о harpe, но не о langeleik, а кто-то ищет «langeleik and harpe», мы получим через HTTP Referer заголовок q параметр, такой как q=langeleik+harpe.Круто - просто есть еще одно слово, которое нужно добавить в нашу карту сайта, если мы хотим. Что касается нечеткости, учтите, что при поиске "орлов" вы можете получить все - от птиц через команды НФЛ до рок-группы.Таким образом, даже если мы являемся музыкальным сайтом, мы могли бы расширить свой кругозор (при желании) до последних новостей НФЛ - что-то совершенно не связанное и очень полезное для некоторых сайтов. Заключение - это иллюзия

Я считаю, что все это очень богатый источник создания карты сайта.Вы можете очень легко сгенерировать миллионы уникальных тегов, используя вышеуказанные методы.Таким образом, «все, что вы наберете» будет найдено на example.com/tags.

Однако вы должны заметить, что это всего лишь иллюзия .Например, если вы ищете «ertfghedctgb» (легко набирается на обычной клавиатуре QWERTY - ert + fgh + edc + tgb), вы, скорее всего, не получите ничего от Google (в настоящее время я не получаю).Просто было недостаточно распространено, чтобы кто-то помещал это в свои карты сайта (или не достаточно часто, чтобы поисковые системы индексировали его).

1 голос
/ 02 апреля 2012

Все браузеры и сканеры отправляют веб-серверу что-либо, называемое строкой HTTP_USER_AGENT, при каждом запросе, если это не было специально добавлено программным обеспечением.Эта строка определяет, какой браузер используется, какая это версия, движок рендеринга и некоторые другие подробности.(См. http://en.wikipedia.org/wiki/User_agent)

. Веб-сервер может считывать HTTP_USER_AGENT и изменять обслуживаемый контент. Например, он используется для определения того, находитесь ли вы на портативном устройстве или на большом экране, и в этом случаевам может понадобиться другой макет данной веб-страницы.

Люди вкладывают большие деньги в привлечение трафика на свои сайты, особенно через крупные поисковые системы, такие как Google и Bing. Термин SEO, который обозначает ПоискОптимизация движка - это метод, при котором владелец веб-страницы оптимизирует свой контент, чтобы поисковые системы могли легко получать релевантные хиты. Если у вас сложный сайт, использующий много JavaScript и Ajax, вы можете использовать статическую страницу.поисковым системам, чтобы они могли читать ваш контент.

Вредоносные сайты иногда предоставляют автоматически сгенерированный, оптимизированный для SEO контент поисковым системам, чтобы занимать высокие места в поиске, но предоставляют пользователям простую страницу с рекламой вместо того, чтобы повысить доход.

Этот ответ предоставляется какальтернатива ответу, когда нормальный динамический контент, как уже описано icyrock-com, является причиной получения другой страницы, чем указывает Google.

...