Программное обеспечение для анализа файлов веб-журналов для измерения поисковых роботов - PullRequest
0 голосов
/ 29 сентября 2010

Мне нужно проанализировать, как происходит сканирование поисковых систем на моем сайте. Есть ли хороший инструмент для этого? Я пробовал AWStats и Sawmill. Но оба из них дают мне очень ограниченное понимание ползания. Мне нужно знать информацию, например, сколько уникальных / отдельных веб-страниц в разделе моего сайта было просканировано определенным сканером за период времени.

Google Analytics не отслеживает сканирование вообще из-за своего механизма отслеживания JavaScript.

1 Ответ

1 голос
/ 30 сентября 2010

После перехода по ссылке на первую страницу вашего сайта основные сканеры поисковых систем сначала запросят файл с именем robots.txt , который, конечно, сообщает поисковому роботу, какие страницы владелец сайта может посещать его, и какие файлы или каталоги запрещены.

Что если у вас нет robots.txt ? Почти всегда сканер «интерпретирует» это, чтобы означать, что ни одна страница / каталог не запрещена, и он продолжит сканировать весь ваш сайт. Так зачем включать файл robots.txt, если это именно то, что вам нужно - то есть, чтобы сканер проиндексировал весь ваш сайт? Потому что, если он есть, Crawler будет почти всегда запрашивать его, чтобы он мог его прочитать - этот запрос, конечно, отображается в виде строки в файле журнала доступа к вашему серверу, что является довольно сильной сигнатурой для Crawler.

Во-вторых, хороший анализатор журнала доступа к серверу, такой как Webalyzer или Awstats . сравнивает пользовательский агент и IP-адреса с опубликованными авторитетными списками : IAB (http://www.iab.net/sites/spiders/login.php) и user-agents.org публикуют два списка, которые, по-видимому, наиболее широко используются для этой цели. первый - несколько тысяч долларов в год и выше, второй - бесплатно.

И Webalyzer, и AWStats могут делать то, что вы хотите, хотя я рекомендую AWStats по следующим причинам: он был обновлен сравнительно недавно (около года назад), тогда как Webalyzer последний раз обновлялся более восьми лет назад. Кроме того, AWStats имеет гораздо более приятные шаблоны отчетов. Преимущество Webalyzer в том, что он намного быстрее.

Вот пример выходных данных AWStats (на основе готовой конфигурации), которые, вероятно, вам нужны:

alt text

...