Справочная информация: Я работаю над бинарной классификацией заявок на медицинское страхование. Данные, с которыми я работаю, имеют приблизительно 1 миллион строк и набор числовых c функций и категориальных функций (все из которых являются номинальными дискретными). Проблема, с которой я сталкиваюсь, заключается в том, что некоторые из моих категорических особенностей имеют большую мощность со многими необычными или уникальными значениями. Ниже я наметил 8 из моих категорических особенностей, у которых было наибольшее количество уникальных уровней факторов:
Альтернатива фиктивным переменным: Я читал на хеширование признаков и поймите, что этот метод является альтернативой, которая может быть использована для быстрого и экономичного способа векторизации функций и является особой подходящей для категориальных данных с высоким количеством элементов. Я планирую использовать FeatureHasher в Scikit Learn для хеширования функций моих категориальных функций с более чем 100 уникальными уровнями функций (я создам фиктивные переменные для остальных категориальных функций с менее чем 100 уникальными уровнями функций). Перед тем, как реализовать это, у меня есть несколько вопросов, касающихся хеширования функций и как это связано с производительностью модели в машинном обучении:
Каково основное преимущество использования хеширования функций, а не только фиктивного наиболее часто встречающиеся факторы уровня? Я предполагаю, что при использовании подхода хеширования данных теряется меньше информации, но мне нужно больше пояснить, какие преимущества дает хеширование в алгоритмах машинного обучения при работе с большим количеством элементов.
Мне интересно оценить важность функций после оценки нескольких отдельных моделей классификации. Есть ли способ оценить хэшированные функции в контексте их отношения к исходным категориальным уровням? Есть ли способ отменить хэши или хеш-функции неизбежно приведут к потере интерпретируемости модели?
Извините за длинный пост и вопросы. Буду признателен за любые отзывы / рекомендации!