Я занимаюсь разработкой системы веб-аналитики, которая должна регистрировать URL-адреса, URL-адреса целевой страницы и ключевые слова для поиска для каждого посетителя сайта. Что я хочу сделать с этими собранными данными, так это позволить конечному пользователю запрашивать данные, такие как «Показать мне всех посетителей, пришедших с Bing.com, которые ищут фразу, содержащую« красные туфли »» или «Показать всех посетителей, которые приземлились на URL, который содержал кампанию "twitter = twitter_ad '" и т. д.
Поскольку эта система будет использоваться на многих крупных веб-сайтах, объем данных, которые необходимо регистрировать, будет расти очень быстро. Итак, мой вопрос: а) какова была бы лучшая стратегия для ведения журнала, чтобы масштабирование системы не стало проблемой; б) как использовать эту архитектуру для быстрого запроса произвольных запросов? Существует ли специальный способ хранения URL-адресов, чтобы их можно было быстрее запрашивать?
В дополнение к базе данных MySQL, которую я использую, я изучаю (и открыт для) другие альтернативы, более подходящие для этой задачи.