Чтобы обеспечить технический подход к работе веб-сканера, я предлагаю вам более подробно изучить решение nutch.apache.org.
Типичный веб-сканер отображает следующие области: сборщик, анализатор, индексатор и поисковик.Короче говоря, веб-сканер извлекает все URL-адреса, доступные на веб-сайте, и создает сегменты, в которых хранится до 101 КБ на страницу.Эти страницы анализируются, но типичные слова, такие как and-or-the, не сохраняются, но другие слова анализируются с использованием байесовских вычислений для определения рейтинга.
Система индексации поисковой системы собирает, анализирует и хранит данные для быстрого и точного поиска информации.Эти задачи в основном выполняются путем хранения списка вхождений каждого поискового критерия, как правило, в форме хеш-таблицы или двоичного дерева с использованием инвертированного индекса.
Как отметил Марк, расчеты Google являются в основном коммерческими секретами, ноПатенты, выданные Google, могут стать хорошим началом.Pagerank http://en.wikipedia.org/wiki/PageRank анализирует в основном обратные ссылки и значение, которое веб-сайты, указывающие на ваш сайт, имеют для предпочтений людей.По моему опыту, важно предложить xml карту сайта с указанием всех ваших веб-страниц на вашем сайте.На этой карте сайта вы можете определить частоту сканирования для каждой страницы.gsitecrawler.com/ - интересная возможность.
Оптимизатор веб-сайта Google даст вам возможность увидеть, что Google находит на вашем сайте, с журналами все в порядке, но, вероятно, робот обнаружит проблему и лучший способ узнать, что этос оптимизатором веб-сайта google для отображения ошибок.
Наконец, большинство ваших проблем - это то, ради чего живут специалисты SEO, я предлагаю вам проверить такие сайты, как seomoz.com и их инструменты ... ВыВы узнаете, как лучше позиционировать свой сайт на обычных результатах поиска в поисковых системах.
надеюсь, это поможет !, Себастьян.