Я строю полиномиальный классификатор и свой набор функций, состоящий из некоторых хорошо себя зарекомендовавших себя функций (т. Е. Вещественных или категоричных с низкой кардинальностью) и некоторых не очень хорошо себя зарекомендовавших себя (категориальные особенности с чрезвычайно высокой мощностью, но в основном разреженные).
Я не был уверен, как объединить эти два типа функций в одной модели.Я думал либо о некотором уменьшении размерности (например, PCA / SVD), либо о выборе функций для не очень хороших функций.В конце я решил потренировать два разных классификатора - один с хорошими характеристиками, а другой - с не очень хорошим поведением.Для первого я использовал логистическую регрессию.Для последнего я использовал подход «мешок слов» с взвешиванием tf-idf в классификаторе дерева решений с градиентным усилением.
Итак, теперь у меня есть два разных классификатора, использующих разные (т.е. не перекрывающиеся) свойства одного и того жеобучающий набор данных.
Если я хочу объединить эти два классификатора, у меня есть разные варианты:
(A) Голосование (т.е. классификатор с мягким голосованием)
(B) Укладка (т.е. создать мета-классификатор, который использует в качестве признаков вероятности (предиката_процесса), сообщенные двумя существующими классификаторами)
Мои вопросы:
- Какую стратегию вы бы порекомендовали?
- Должен ли я откалибровать вероятности перед тем, как использовать их в (A) или (B)?
- Если я собираюсь пойти на (B), буду ли я использовать оригинальные характеристики вместе с вероятностями?