Question

Я новичок, чтобы потворствовать. Всего 3 с лишним дня. Я использую Lucene для индексации и поиска необработанных данных в виде полевых и не отправленных данных. Я очень впечатлен производительностью lucenes для поиска. Мне было интересно, может ли опытное сообщество рассказать мне о нескольких возможностях спанча. Конкретно в сравнении spunk с тем, что я уже знаю о Lucene. Не ограничивается только поиском.

Как splunk обрабатывает стоп-слова? Слова, которые очень распространены такие а, это ... которое мы можем предоставить в люцене вручную.
Разделяет ли поиск по шаблону подстановочный знак, поиск по близости, поиск по регулярному выражению? я знаю он может выполнять полевые поиски.
Оптимизация по индексам. Специально сжатие.
Можно ли выполнять нечеткий поиск по синонимам в Splunk?

Я знаю, что это, должно быть, длинный вопрос, но определенно хотел бы узнать некоторые моменты от опытных людей о спирите и надеяться, что они не соблюдают правила SO.

Спасибо.

Paul Sanford · Answer 1 · 04 апреля 2012

Это потенциально очень долгое обсуждение различий между Splunk, который стремится индексировать временные ряды, сгенерированные машиной данные, и Lucene, который изначально был предназначен для индексации сгенерированных человеком текстовых документов. Мы можем начать с ваших вопросов.

Splunk не имеет понятия о стоп-словах. По умолчанию Splunk индексирует все ключевые слова, найденные в событиях, как определено правилами сегментации.
Splunk обеспечивает поиск по шаблону и поиску по фразе, но индекс не обеспечивает поиск по собственной близости или поиск по регулярному выражению. Для этого мы полагаемся на последующие команды в конвейере обработки поиска.
Splunk активно сжимает необработанные данные, которые мы храним, и мы тратим много усилий на то, чтобы сделать индексы как можно меньше, с помощью явного сжатия и других структур данных с небольшим объемом. Как правило, можно ожидать, что исходные данные будут составлять 10% от размера исходных данных, а индексы - 20-40% от размера исходных данных, в зависимости от энтропии. Вместе Splunk обычно требует 30-50% размера исходных необработанных данных в качестве хранилища.
Сам индекс не обеспечивает поддержку синонимов, поскольку это принципиально проблема для человеческого текста. Однако мы предоставляем аналогичную концепцию в типах событий, которые могут использоваться для представления значимых классов запросов, включая синонимы.

Splunk - возможности поиска, насколько он мощный?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Splunk - возможности поиска, насколько он мощный?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы