Svenstrup et.и др.2017 предлагает интересный способ обработки коллизий хеш-функции в векторизаторах хэширования: используйте 2 разные функции хеширования и объединяйте их результаты перед моделированием.
Они утверждают, что комбинация нескольких хеш-функций приближается к одной хеш-функции сгораздо больший диапазон (см. раздел 4 статьи).
Я хотел бы попробовать это с некоторыми текстовыми данными, с которыми я работаю в sklearn.Идея состояла бы в том, чтобы дважды запустить HashingVectorizer , каждый раз с другой хэш-функцией, а затем объединить результаты в качестве входных данных для моей модели.
Как я могу сделать со sklearn?Нет возможности изменить используемую хэш-функцию, но, может быть, можно каким-то образом изменить векторизатор?
Или, может быть, я мог бы добиться этого с помощью SparseRandomProjection ?