Насколько я понимаю, единственный способ войти в Google или любой другой механизм индексации - это заставить робота сканировать ваш сайт и генерировать результаты. Очевидно, что Google может сканировать динамические сайты:
однако я считаю, что это эволюционное, а не революционное изменение в отношении вашего вопроса.
То, что я думаю, происходит за кулисами, это сочетание этих вещей:
- Индекс содержания
- Подготовленный индекс
- Пользовательский контент
- Поиск обновлений реферера
Я попытаюсь объяснить каждый из них на вымышленном сайте, который продает музыку - у вас есть много примеров для сравнения опыта. Это, конечно, будет на домене example.com.
Индекс содержания
Очевидно, что как сайт, который хочет что-то предложить, у вас действительно есть какой-то контент. Обычно вы как-то группируете это содержимое. Давайте предположим, что наш музыкальный сайт может группировать контент по разным категориям:
- Автор
- Музыкальный жанр
- Пользователь отправил
- Рейтинги контента
Каждый из них может быть абстрактно представлен в виде тега. Например, наш сайт может выбрать, чтобы example.com/tags/eagles представлял Eagles или example.com/tags/rock для представления всех рок-групп. Google сможет проиндексировать их, поэтому любой потенциальный поиск может дать ссылку на наш сайт.
Подготовленный индекс
Подготовленный индекс похож, но это общий индекс, а не реальный контент. Это может быть подготовлено несколькими способами, такими как:
- Возьми словарь и добавь все слова
- Просканируйте несколько миллионов страниц из Интернета (возможно, используя ссылки, предоставленные поисковыми системами!) И получайте оттуда часто повторяющиеся фразы
- Получение контента с бесплатных форумов
- Использование Википеда
- Получить текст из свободно доступных книг, например, из Project Gutenberg
Наш сайт, например, будет получать любые слова из текстов, которые каким-либо образом связаны с музыкой, и делать теги похожими на предыдущие. Например. просто просматривая страницу Rock music в Википедии, вы можете получить много тегов.
Пользовательский контент
Обычно это происходит после того, как ваш сайт запущен и работает. Допустим, мы разместили окно поиска на нашем сайте, а затем пришли пользователи и набрали «рок-музыка». До, мы уже знали это, так что ничего хорошего из этого поиска. Однако, допустим, мы просматриваем логи нашего веб-сервера и видим некоторые поиски langeleik . Теперь это было бы то, что мы не могли бы индексировать раньше. Круто, просто сгенерировал еще один тег на нашем сайте.
Очевидно, Google этого не знает - поэтому мы создаем запись в нашей карте сайта , и она появляется после очередного сканирования роботом Google. Когда пользователь ищет в Google «langeleik», одной из ссылок может быть ссылка на example.com/tags/langeleik.
.
Существуют другие и, возможно, гораздо более ценные формы ввода данных пользователем - комментарии, сообщения на форуме и т. Д. Следовательно, существует множество общих форумов, которые не имеют никакой другой цели, кроме хостинга форумов. Это отличный источник данных, и вы получаете новый контент бесплатно.
В конце концов все это должно перейти на карту сайта вашего сайта. Вы можете иметь огромные карты сайта, посмотрите это:
1083 * Рефералы *
Последнее - это рефералы. Опять же, после того, как ваш сайт запущен и работает, некоторые из поисков Google придут непосредственно к вам. Именно тогда вы можете воспользоваться заголовком HTTP Referer (да, это ошибочное написание - проверьте его в Wikipedia ), посмотрите это:
Можно ли получить поисковый запрос из поиска Google?
Обратите внимание, что поиск Google является одновременно:
Неполное
Нечеткий
Таким образом, вы можете искать "langeleik" выше, но некоторые ссылки имеют название, например, "Langeleik and Harpe".Ничего необычного, но обратите внимание и на обратное - если вы ищете «langeleik and harpe», он найдет не только все страницы с обоими терминами, но также страницы с тем или другим.Если мы знаем о harpe, но не о langeleik, а кто-то ищет «langeleik and harpe», мы получим через HTTP Referer заголовок q
параметр, такой как q=langeleik+harpe
.Круто - просто есть еще одно слово, которое нужно добавить в нашу карту сайта, если мы хотим. Что касается нечеткости, учтите, что при поиске "орлов" вы можете получить все - от птиц через команды НФЛ до рок-группы.Таким образом, даже если мы являемся музыкальным сайтом, мы могли бы расширить свой кругозор (при желании) до последних новостей НФЛ - что-то совершенно не связанное и очень полезное для некоторых сайтов. Заключение - это иллюзия
Я считаю, что все это очень богатый источник создания карты сайта.Вы можете очень легко сгенерировать миллионы уникальных тегов, используя вышеуказанные методы.Таким образом, «все, что вы наберете» будет найдено на example.com/tags.
Однако вы должны заметить, что это всего лишь иллюзия .Например, если вы ищете «ertfghedctgb» (легко набирается на обычной клавиатуре QWERTY - ert + fgh + edc + tgb), вы, скорее всего, не получите ничего от Google (в настоящее время я не получаю).Просто было недостаточно распространено, чтобы кто-то помещал это в свои карты сайта (или не достаточно часто, чтобы поисковые системы индексировали его).