Я нахожусь в процессе создания полного «масштабируемого» решения для предоставления нашим клиентам всесторонней аналитики в реальном времени.
Клиенты в основном имеют до 200 серверов, каждый из которых имеет не более 400 текущих сеансов, что дает 80000 сеансов одновременно.
Я хотел бы предоставить аналитику для сессий и использовать инструмент BI, например, Tableau, для предоставления графики и интерфейса запросов (в основном агрегирует запросы).
Я ожидаю, что каждая сессия будет длиться 4 минуты и вызовет около 20 событий в течение 4 минут. Каждое событие может содержать около 5 полей, в основном целые числа. Я бы регистрировал дату начала, дату окончания и, в основном, некоторые счетчики во время сеанса (например, количество кликов). Это около 8000 вставок в секунду.
Я думаю о Hadoop, поскольку RDBMS, очевидно, будет не очень легко масштабировать (будет использовать PostgreSQL, если вы убедите меня, что PostgreSQL может справиться с этой нагрузкой на машине с 5000-8000 $).
Однако я читал, что у Hadoop слишком большая задержка, поскольку он ориентирован на пакетную обработку, поэтому он может не подходить для аналитики. Что ты думаешь?
Какое решение используется отраслью веб-маркетинга для подачи базы данных и запроса к ней?
Спасибо!