Подсчитайте количество страниц на сайте - PullRequest
2 голосов
/ 09 февраля 2011

Я хотел бы знать, сколько общедоступных страниц на сайте, например, smashingmagzine.com.Есть ли способ подсчитать количество страниц?

Ответы [ 3 ]

3 голосов
/ 09 февраля 2011

Вы можете запросить индекс Google с помощью оператора site.Например:

site:domain-to-query.com

Будет возвращен список страниц сайта, которые в данный момент проиндексированы Google.Другие поисковые системы предоставляют аналогичную функциональность, но я не знаю синтаксис.

Конечно, не все страницы могут быть проиндексированы, и индекс может содержать страницы, которых больше не существует.

2 голосов
/ 09 февраля 2011

Вам нужно в основном сканировать сайт. Ваш процесс будет выглядеть примерно так:

  • Начать с корневого домена / домашней страницы
  • Поиск всех ссылок, которые указывают в пределах одного домена
  • Для каждой из этих ссылок повторите шаги

Ваш цикл завершается, когда больше нет ссылок для сканирования, указывающих в том же домене. Не забудьте остаться на сайте, иначе вы начнете сканировать внешние сайты.

Вы также можете попытаться проанализировать карту сайта, если она у вас есть.

Одним из инструментов, который может оказаться полезным при использовании Java, является JSpider или Sphider в PHP.

0 голосов
/ 09 февраля 2011

Вам нужно будет рекурсивно сканировать разметку каждой страницы, начиная со страницы верхнего уровня, искать любые ссылки на другие страницы и рекурсивно сканировать их. Вам также необходимо отслеживать, что было отсканировано, чтобы не попасть в бесконечный цикл.

...