Регистрация запросов на сайтах с высоким трафиком - PullRequest
0 голосов
/ 27 января 2009

Интересно, как сайты с высоким трафиком обрабатывают регистрацию трафика, например, такой сайт, как myspace.com, получает много посещений, я могу себе представить, что для регистрации всех этих запросов потребуется много места, поэтому они регистрируют каждый запрос или как они справляются с этим?

Ответы [ 7 ]

3 голосов
/ 27 января 2009

У нас была похожая проблема с интранетом, которой пользуются сотни людей. Дисковая активность была огромной, а производительность снижалась.

Краткий ответ - асинхронная неблокирующая регистрация.

3 голосов
/ 27 января 2009

Если вы просматриваете источник на странице MySpace, вы получите ответ:

<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6293770-1");
pageTracker._setDomainName(".myspace.com");
pageTracker._setSampleRate("1"); //sets sampling rate to 1 percent
pageTracker._trackPageview(); 
</script>

Этот скрипт означает, что они используют Google Analytics.

Они не могут просто измерить трафик с помощью журналов IIS, потому что они могут продавать рекламу третьим сторонам, и третьи лица не поверят вам на слово, сколько трафика вы получите. Они хотят получить независимые номера от отдельной компании, и вот тут появляется Google Analytics.

Просто для дальнейшего использования - всякий раз, когда у вас есть вопрос о том, как веб-сайт что-то делает, попробуйте просмотреть источник. Вы были бы поражены тем, что вы можете найти там при виде.

1 голос
/ 27 января 2009

вероятно, как Google Analytics.

Используйте Javascript для загрузки страницы на разностный сервер и т. Д.

0 голосов
/ 09 декабря 2009

Если под ведением журнала вы подразумеваете сбор информации, относящейся к серверу (время запросов и ответов, использование базы данных и процессора для каждого запроса и т. Д.), Я думаю, что они выбирают только 10% или 1% трафика. Это дает те же результаты (предоставляют разработчикам информацию аудита) без заполнения дисков или замедления работы сайта.

0 голосов
/ 27 января 2009

Я был бы очень удивлен, если бы они не регистрировали каждый отдельный запрос, да, и операции с особенно большими объемами трафика обычно сводят свои собственные решения по управлению журналами к журналам необработанного сервера, в той или иной форме - иногда как простые процессы пакетного типа, иногда как полные подсистемы.

Одна компания, в которой я работал, еще во времена расцвета доткомов, получала более двадцати миллионов просмотров страниц в день; для этого сайта (на самом деле это набор из них, который, как я помню, работает на нескольких десятках машин), наша команда ops написала довольно сложное кластерное решение на C, которое анализировало, переводило (в реляционное хранилище), сжимало и распределяло логи ежедневно. Файлы журналов, особенно подробные, быстро накапливаются, и имеющиеся на тот момент коммерческие решения просто не могли их сократить.

0 голосов
/ 27 января 2009

ZXTM формирование трафика и ведение журнала, судя по опыту здесь

0 голосов
/ 27 января 2009

Не так, как они это отслеживают, так как я там не работаю. Я уверен, что у них достаточно памяти для записи каждой мелочи об их пользователе, если они захотят.

Если бы я был ими, я бы использовал AwStats, если бы просто хотел узнать основные сведения о моих пользователях. Скорее всего, они разработали свои собственные сценарии для отслеживания своих пользователей. Материал они бы войти -ip_address
-referrer
-время
-browser
-OS

и так далее. Затем скрипт для просмотра разных данных о пользователе, различающихся по дням, неделям или месяцам. Как сказал Брулак, что-то вроде Аналитики, но, поскольку у них есть доступ к реальной базе данных, они могут узнать гораздо больше о своих пользователях.

...