Мы индексируем весь журнал доступа вasticsearch (в среднем 2000 doc / sec) в ежедневный индекс, и мы каждую секунду делаем запрос наasticsearch, чтобы найти потенциальных спамеров (100 запросов).(распространенный вариант использования потоковой передачи Apache Storm или Apache Spark, но мы предпочитаемasticsearch).
Запрос спамера ищет во временном окне: [-1h;сейчас] с некоторыми тяжелыми агрегациями, затем программа анализирует его, чтобы найти спамера.
Это работает нормально, но:
- Потребляет много ЦП, может быть, потому что диск io?
- Не в режиме реального времени, потому что мы установили
refresh_interval
на 10 секунд, чтобы улучшить операции индексирования
Мне интересно, есть ли какая-то настройка для этого (возможно, RAM-диск, почасовые индексы ...)