Объединение разных классификаторов - PullRequest
0 голосов
/ 12 декабря 2018

Я строю полиномиальный классификатор и свой набор функций, состоящий из некоторых хорошо себя зарекомендовавших себя функций (т. Е. Вещественных или категоричных с низкой кардинальностью) и некоторых не очень хорошо себя зарекомендовавших себя (категориальные особенности с чрезвычайно высокой мощностью, но в основном разреженные).

Я не был уверен, как объединить эти два типа функций в одной модели.Я думал либо о некотором уменьшении размерности (например, PCA / SVD), либо о выборе функций для не очень хороших функций.В конце я решил потренировать два разных классификатора - один с хорошими характеристиками, а другой - с не очень хорошим поведением.Для первого я использовал логистическую регрессию.Для последнего я использовал подход «мешок слов» с взвешиванием tf-idf в классификаторе дерева решений с градиентным усилением.

Итак, теперь у меня есть два разных классификатора, использующих разные (т.е. не перекрывающиеся) свойства одного и того жеобучающий набор данных.

Если я хочу объединить эти два классификатора, у меня есть разные варианты:

(A) Голосование (т.е. классификатор с мягким голосованием)

(B) Укладка (т.е. создать мета-классификатор, который использует в качестве признаков вероятности (предиката_процесса), сообщенные двумя существующими классификаторами)

Мои вопросы:

  1. Какую стратегию вы бы порекомендовали?
  2. Должен ли я откалибровать вероятности перед тем, как использовать их в (A) или (B)?
  3. Если я собираюсь пойти на (B), буду ли я использовать оригинальные характеристики вместе с вероятностями?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...