Splunk - возможности поиска, насколько он мощный? - PullRequest
0 голосов
/ 22 марта 2012

Я новичок, чтобы потворствовать. Всего 3 с лишним дня. Я использую Lucene для индексации и поиска необработанных данных в виде полевых и не отправленных данных. Я очень впечатлен производительностью lucenes для поиска. Мне было интересно, может ли опытное сообщество рассказать мне о нескольких возможностях спанча. Конкретно в сравнении spunk с тем, что я уже знаю о Lucene. Не ограничивается только поиском.

  • Как splunk обрабатывает стоп-слова? Слова, которые очень распространены такие а, это ... которое мы можем предоставить в люцене вручную.
  • Разделяет ли поиск по шаблону подстановочный знак, поиск по близости, поиск по регулярному выражению? я знаю он может выполнять полевые поиски.
  • Оптимизация по индексам. Специально сжатие.
  • Можно ли выполнять нечеткий поиск по синонимам в Splunk?

    Я знаю, что это, должно быть, длинный вопрос, но определенно хотел бы узнать некоторые моменты от опытных людей о спирите и надеяться, что они не соблюдают правила SO.

Спасибо.

1 Ответ

5 голосов
/ 04 апреля 2012

Это потенциально очень долгое обсуждение различий между Splunk, который стремится индексировать временные ряды, сгенерированные машиной данные, и Lucene, который изначально был предназначен для индексации сгенерированных человеком текстовых документов. Мы можем начать с ваших вопросов.

  1. Splunk не имеет понятия о стоп-словах. По умолчанию Splunk индексирует все ключевые слова, найденные в событиях, как определено правилами сегментации.

  2. Splunk обеспечивает поиск по шаблону и поиску по фразе, но индекс не обеспечивает поиск по собственной близости или поиск по регулярному выражению. Для этого мы полагаемся на последующие команды в конвейере обработки поиска.

  3. Splunk активно сжимает необработанные данные, которые мы храним, и мы тратим много усилий на то, чтобы сделать индексы как можно меньше, с помощью явного сжатия и других структур данных с небольшим объемом. Как правило, можно ожидать, что исходные данные будут составлять 10% от размера исходных данных, а индексы - 20-40% от размера исходных данных, в зависимости от энтропии. Вместе Splunk обычно требует 30-50% размера исходных необработанных данных в качестве хранилища.

  4. Сам индекс не обеспечивает поддержку синонимов, поскольку это принципиально проблема для человеческого текста. Однако мы предоставляем аналогичную концепцию в типах событий, которые могут использоваться для представления значимых классов запросов, включая синонимы.

...