Question

Я хотел знать, где я могу найти реализацию фильтра Блума, с некоторыми пояснениями по поводу выбора хеш-функций.

Кроме того, у меня есть следующие вопросы:
1) Известно, что фильтр Блума имеет ложные срабатывания.Можно ли уменьшить их, используя два фильтра, один для использованных элементов и один для неиспользуемых элементов (при условии, что набор конечен и известен априори), и сравнить два?
2) существуют ли другие подобные алгоритмыв литературе по КС?

Phil Miller · Answer 1 · 08 января 2012

Моя интуиция заключается в том, что вы получите лучшее сокращение ложных срабатываний, если будете использовать дополнительное пространство, которое антифильтр занимал бы, чтобы просто расширить положительный фильтр.

Что касается ресурсов, то в ссылках на документына 8 марта с мой учебный план будет полезен.

richardstartin · Answer 2 · 06 ноября 2017

Очень легко реализовать фильтр Блума с использованием функций Java 8.Вам просто нужно long[] для хранения битов и несколько хеш-функций, которые вы можете представить с помощью ToIntFunction<T>.Я кратко написал о , делающем это с нуля .

Осторожнее всего выбрать правильный бит из массива.

public class BloomFilter<T> {

     private final long[] array;
     private final int size;
     private final List<ToIntFunction<T>> hashFunctions;

     public BloomFilter(long[] array, int logicalSize, List<ToIntFunction<T>> hashFunctions) {
         this.array = array;
         this.size = logicalSize;
         this.hashFunctions = hashFunctions;
     }

     public void add(T value) {
         for (ToIntFunction<T> function : hashFunctions) {
              int hash = mapHash(function.applyAsInt(value));
              array[hash >>> 6] |= 1L << hash;
         }
     }

     public boolean mightContain(T value) {
         for (ToIntFunction<T> function : hashFunctions) {
              int hash = mapHash(function.applyAsInt(value));
              if ((array[hash >>> 6] & (1L << hash)) == 0) {
                   return false;
              }
         }
         return true;
    }

    private int mapHash(int hash) {
         return hash & (size - 1);
    }


    public static <T> Builder<T> builder() {
         return new Builder<>();
    }

    public static class Builder<T> {
         private int size;
         private List<ToIntFunction<T>> hashFunctions;

         public Builder<T> withSize(int size) {
             this.size = size;
             return this;
         }

         public Builder<T> withHashFunctions(List<ToIntFunction<T>> hashFunctions) {
              this.hashFunctions = hashFunctions;
              return this;
          }

         public BloomFilter<T> build() {
              return new BloomFilter<>(new long[size >>> 6], size, hashFunctions);
         }
     }  
}

TechEffigy · Answer 3 · 06 июня 2014

Я думаю, что мы должны посмотреть на применение Bloom Filters, и секрет в названии, это Фильтр, а не структура данных.Он в основном используется для сохранения ресурсов путем проверки, не являются ли элементы частью набора.Если вы хотите свести к минимуму ложные срабатывания до 0, вам нужно будет вставить все элементы, которые не входят в набор, поскольку для хорошо спроектированного фильтра Блума нет ложных негативов, за исключением того, что фильтр Блума будет гигантским и непрактичным,с таким же успехом можно просто хранить элементы в пропущенном списке :) Я написал простое руководство по Bloom Filters, если кому-то интересно.

http://techeffigy.wordpress.com/2014/06/05/bloom-filter-tutorial/

herohuyongtao · Answer 4 · 18 декабря 2013

Java-реализацию фильтра Блума можно найти в здесь . Если вы не можете просмотреть его, я вставлю код в следующем (с комментариями на китайском языке).

import java.util.BitSet;

publicclass BloomFilter 
{
    /* BitSet初始分配2^24个bit */ 
    privatestaticfinalint DEFAULT_SIZE =1<<25; 
    /* 不同哈希函数的种子，一般应取质数 */
    privatestaticfinalint[] seeds =newint[] { 5, 7, 11, 13, 31, 37, 61 };
    private BitSet bits =new BitSet(DEFAULT_SIZE);
    /* 哈希函数对象 */ 
    private SimpleHash[] func =new SimpleHash[seeds.length];

    public BloomFilter() 
    {
        for (int i =0; i < seeds.length; i++)
        {
            func[i] =new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    // 将字符串标记到bits中
    publicvoid add(String value) 
    {
        for (SimpleHash f : func) 
        {
            bits.set(f.hash(value), true);
        }
    }

    //判断字符串是否已经被bits标记
    publicboolean contains(String value) 
    {
        if (value ==null) 
        {
            returnfalse;
        }
        boolean ret =true;
        for (SimpleHash f : func) 
        {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    /* 哈希函数类 */
    publicstaticclass SimpleHash 
    {
        privateint cap;
        privateint seed;

        public SimpleHash(int cap, int seed) 
        {
            this.cap = cap;
            this.seed = seed;
        }

        //hash函数，采用简单的加权和hash
        publicint hash(String value) 
        {
            int result =0;
            int len = value.length();
            for (int i =0; i < len; i++) 
            {
                result = seed * result + value.charAt(i);
            }
            return (cap -1) & result;
        }
    }
}

С точки зрения проектирования фильтра Блума, число хеш-функций, необходимых для фильтра Блума, можно определить, как в здесь , также ссылаясь на статью Википедии о фильтрах Блума , затем вы найдете сечение Вероятность ложных срабатываний . В этом разделе объясняется, как количество хеш-функций влияет на вероятности ложных срабатываний, и дается формула для определения k из требуемой ожидаемой вероятности. ложных срабатываний.

Цитата из статьи в Википедии:

Очевидно, вероятность ложного положительные значения уменьшается как м (число битов в массиве) увеличивается, и увеличивается как n (количество вставленных элементы) увеличивается. Для данного м и n, значение k (количество хэшей функции), который минимизирует вероятность

Блум фильтр дизайн

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Блум фильтр дизайн

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы