Используйтеasticsearch в качестве потокового движка в реальном времени в лямбда-архитектуре - PullRequest
0 голосов
/ 21 сентября 2018

Мы индексируем весь журнал доступа вasticsearch (в среднем 2000 doc / sec) в ежедневный индекс, и мы каждую секунду делаем запрос наasticsearch, чтобы найти потенциальных спамеров (100 запросов).(распространенный вариант использования потоковой передачи Apache Storm или Apache Spark, но мы предпочитаемasticsearch).

Запрос спамера ищет во временном окне: [-1h;сейчас] с некоторыми тяжелыми агрегациями, затем программа анализирует его, чтобы найти спамера.

Это работает нормально, но:

  1. Потребляет много ЦП, может быть, потому что диск io?
  2. Не в режиме реального времени, потому что мы установили refresh_interval на 10 секунд, чтобы улучшить операции индексирования

Мне интересно, есть ли какая-то настройка для этого (возможно, RAM-диск, почасовые индексы ...)

...