Google сканирует алгоритмы индексации - PullRequest
4 голосов
/ 16 августа 2010

Я ищу документы о том, как Google сканирует и индексирует контент. Я прочитал много «легких» статей и статей о том, что вам нужно сделать, чтобы повысить свой рейтинг и убедиться, что ваш контент правильно проиндексирован, но я ищу более сложные технические документы о том, как Google сканирует и индексирует контент.

Вещи, о которых я хотел бы узнать больше:

  • Какие элементы Google ищет при сканировании: содержимое страницы, формат URL, ключевые слова, описание и т. Д ...
  • Как обновляется индекс?

По сути, я пытаюсь понять, почему некоторые страницы индексируются, а другие нет, даже если форматы похожи. Почему только 10% страниц моего сайта появляются, когда я выполняю поиск по всему домену, даже если я вижу в журналах своего сервера, что Google сканировал каждую ссылку.

Ответы [ 6 ]

5 голосов
/ 16 августа 2010

Ответы на оба вопроса являются тщательно охраняемыми коммерческими секретами, якобы для предотвращения игровой системы.

Также имейте в виду, что Google вносит более 400 алгоритмических изменений в год , что делает невозможным точность и актуальность для постороннего лица.Если не работать в Google, вы, вероятно, не найдете подробного и точного ответа.

Однако Мэтт Каттс, глава команды веб-спама, часто дает наиболее точную информацию о том, как Google обрабатывает контент, как на его блоге , так и на канале GoogleWebmasterHelp YouTube .Стоит изучить его содержание, чтобы лучше понять методологию Google.

1 голос
/ 25 июля 2015

Он сканирует вашу веб-страницу очень точно и чутко. Такие факторы, как у вас встроенный javascript или другие файлы, независимо от того, используете ли вы фреймы при разработке или тяжелую графику, могут снизить рейтинг вашей страницы. Ключевые слова, очевидно, влияют на ранжирование сущностей. Неработающие ссылки также снижают рейтинг вашего сайта. По сути, вы можете обратиться к http://www.tutorialspoint.com/seo/, чтобы просмотреть все важные моменты сканера Google. Это займет максимум 40 минут.

1 голос
/ 17 июля 2013

"Да" Google любит свежий и уникальный контент. Используйте руководство для веб-мастеров Google "попробуйте вместо этого" H1 или H2 метатег в ваших программах HTML под тегом head ....

Ваше ключевое слово

. Якорь должен использовать ключевые слова, связанные с вашим бизнесом, в H1, H2 , это может помочь поисковой системе вашего сайта.

Также используйте для Rich snippets в этом теге ..!

1 голос
/ 16 августа 2010

Чтобы обеспечить технический подход к работе веб-сканера, я предлагаю вам более подробно изучить решение nutch.apache.org.

Типичный веб-сканер отображает следующие области: сборщик, анализатор, индексатор и поисковик.Короче говоря, веб-сканер извлекает все URL-адреса, доступные на веб-сайте, и создает сегменты, в которых хранится до 101 КБ на страницу.Эти страницы анализируются, но типичные слова, такие как and-or-the, не сохраняются, но другие слова анализируются с использованием байесовских вычислений для определения рейтинга.

Система индексации поисковой системы собирает, анализирует и хранит данные для быстрого и точного поиска информации.Эти задачи в основном выполняются путем хранения списка вхождений каждого поискового критерия, как правило, в форме хеш-таблицы или двоичного дерева с использованием инвертированного индекса.

Как отметил Марк, расчеты Google являются в основном коммерческими секретами, ноПатенты, выданные Google, могут стать хорошим началом.Pagerank http://en.wikipedia.org/wiki/PageRank анализирует в основном обратные ссылки и значение, которое веб-сайты, указывающие на ваш сайт, имеют для предпочтений людей.По моему опыту, важно предложить xml карту сайта с указанием всех ваших веб-страниц на вашем сайте.На этой карте сайта вы можете определить частоту сканирования для каждой страницы.gsitecrawler.com/ - интересная возможность.

Оптимизатор веб-сайта Google даст вам возможность увидеть, что Google находит на вашем сайте, с журналами все в порядке, но, вероятно, робот обнаружит проблему и лучший способ узнать, что этос оптимизатором веб-сайта google для отображения ошибок.

Наконец, большинство ваших проблем - это то, ради чего живут специалисты SEO, я предлагаю вам проверить такие сайты, как seomoz.com и их инструменты ... ВыВы узнаете, как лучше позиционировать свой сайт на обычных результатах поиска в поисковых системах.

надеюсь, это поможет !, Себастьян.

0 голосов
/ 07 января 2013

Я проанализировал последний алгоритм и обнаружил, что теперь

Google придает большую важность CONTENT , а не LINKS .

Поэтому, если ваш контент достаточно хорош с правильно доступными тегами, Google автоматически создаст для вас индекс.Я бы предложил H1 - H6 , чтобы все было использовано надлежащим образом.

0 голосов
/ 16 августа 2010
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...