После перехода по ссылке на первую страницу вашего сайта основные сканеры поисковых систем сначала запросят файл с именем robots.txt , который, конечно, сообщает поисковому роботу, какие страницы владелец сайта может посещать его, и какие файлы или каталоги запрещены.
Что если у вас нет robots.txt ? Почти всегда сканер «интерпретирует» это, чтобы означать, что ни одна страница / каталог не запрещена, и он продолжит сканировать весь ваш сайт. Так зачем включать файл robots.txt, если это именно то, что вам нужно - то есть, чтобы сканер проиндексировал весь ваш сайт? Потому что, если он есть, Crawler будет почти всегда запрашивать его, чтобы он мог его прочитать - этот запрос, конечно, отображается в виде строки в файле журнала доступа к вашему серверу, что является довольно сильной сигнатурой для Crawler.
Во-вторых, хороший анализатор журнала доступа к серверу, такой как Webalyzer или Awstats .
сравнивает пользовательский агент и IP-адреса с опубликованными авторитетными списками : IAB (http://www.iab.net/sites/spiders/login.php) и user-agents.org публикуют два списка, которые, по-видимому, наиболее широко используются для этой цели. первый - несколько тысяч долларов в год и выше, второй - бесплатно.
И Webalyzer, и AWStats могут делать то, что вы хотите, хотя я рекомендую AWStats по следующим причинам: он был обновлен сравнительно недавно (около года назад), тогда как Webalyzer последний раз обновлялся более восьми лет назад. Кроме того, AWStats имеет гораздо более приятные шаблоны отчетов. Преимущество Webalyzer в том, что он намного быстрее.
Вот пример выходных данных AWStats (на основе готовой конфигурации), которые, вероятно, вам нужны: