Мы использовали внешний анализатор логов для проекта клиента (большая частная интрасеть). Архитектура:
- Библиотека js добавляет «веб-ошибку», пустой gif-файл с дополнительными параметрами запроса, загруженный с выделенного сервера nginx.
- Обработчик журналов берет журналы nginx, вращает их и анализирует строки в базе данных, считая доступ вместе с дополнительными метаданными. Записи в БД включают UID контента, среди прочих интересных углов.
- Сайт имеет доступ только для чтения к той же базе данных, чтобы делать запросы статистики.
Подсчет страниц тогда прост, просто запросите базу данных для правильного UID. Ранжированные списки не намного сложнее; запросите статистику, затем используйте UID для присоединения данных каталога к результирующему набору.
Самая большая проблема, с которой мы сейчас сталкиваемся, - это недостаток ноу-хау в хранилищах данных (превращение отдельных строк доступа в базе данных в эффективные агрегаты), и мы рассматриваем переоснащение этой установки для использования Piwik в качестве вместо движка статистики.
Мы не можем использовать Google Analytics в данном конкретном случае, но если у вас нет такого ограничения, я бы, конечно, посоветовал вам изучить colleg.googleanalytics и посмотреть, сможете ли вы его подогнать. ваш вариант использования.