Фильтры Блума могут помочь не во всех случаях.
ИЛИ C содержит индексы на уровне файла, уровне чередования и уровне строки (для 10000 строк, настраивается). Если PPD настроен , индексы (минимальные, максимальные значения) могут использоваться для пропуска файлов чтения ( часть нижнего колонтитула будет прочитана в любом случае ), полосы также могут быть пропущены. Эти индексы полезны для фильтрации сортируемых последовательных значений и запросов диапазона. например, целое число. Чтобы индексы были эффективными, вы должны сортировать данные по индексным ключам при вставке. Несортированный индекс не эффективен, потому что все полосы могут содержать все ключи.
Сортировка во время вставки может быть дорогой.
В большинстве случаев достаточно иметь только индексы.
Фильтры Блума - это структуры, которые могут помочь проверить, нет ли ключа в набор данных с вероятностью 100%.
Фильтры Блума эффективны для запросов на равенство, особенно для непоследовательных несортированных значений , таких как GUID. Индексы MIN / MAX не работают эффективно для таких значений. Фильтр по спецификациям c GUID должен быть очень эффективным с фильтром Блума.
Для сортируемых последовательных значений, таких как целочисленный идентификатор, минимальные / максимальные значения, хранящиеся в ИЛИ C, индексы (отсортированные) лучше.