Я пытаюсь использовать MCS (мультиклассификационную систему) для улучшения работы с ограниченными данными, т.е. для повышения точности.
В настоящее время я использую кластеризацию K-средних, но могу выбрать FCM (Нечеткие c-средства), когда данные группируются в группы (кластеры), в которых данные могут представлять что угодно, например, цвета. Я сначала кластеризирую данные после предварительной обработки и нормализации и получаю несколько отдельных кластеров с большим количеством промежуточных. Затем я продолжаю использовать кластеры в качестве данных для байесовского классификатора, каждый кластер представляет отдельный цвет, и байесовский классификатор обучается, а данные из кластеров затем передаются через отдельные байесовские классификаторы. Каждый байесовский классификатор обучается только одному цвету. Если мы возьмем цветовой спектр 3 - 10 как синий, 13 - 20 - как красный, а спектр в диапазоне от 0 - 3 - от белого до 1,5, так и постепенно он станет синим, через 1,5 - 3 и таким же для синего до красного.
Что я хотел бы знать, так это то, как или какой метод агрегирования (если это то, что вы бы использовали) мог бы применяться, чтобы классификатор Байеса мог стать сильнее, и как он работает? Метод агрегации уже знает ответ, или это будет человеческое взаимодействие, которое корректирует результаты, и затем эти ответы возвращаются в данные обучения Байеса? Или сочетание обоих? Глядя на агрегацию Bootstrap, она подразумевает, чтобы каждая модель в голосовании ансамбля имела равный вес, поэтому не совсем уверен, что в этом конкретном случае я бы использовал суммирование в качестве метода агрегирования? Повышение, однако, включает в себя поэтапное построение ансамбля путем обучения каждого нового экземпляра модели, чтобы подчеркнуть обучающие экземпляры, которые предыдущие модели неправильно классифицировали, не уверен, что это будет лучшей альтернативой пакетированию, так как я не уверен, как он постепенно строится на новых экземплярах? И, наконец, последним будет усреднение по Байесовской модели, которое представляет собой метод ансамбля, который стремится аппроксимировать Байесовский оптимальный классификатор путем отбора гипотез из пространства гипотез и объединения их с использованием закона Байеса, однако совершенно не уверен, как вы будете выбирать гипотезы из пространства поиска?
Я знаю, что обычно вы используете конкурентный подход, чтобы отразить два алгоритма классификации, один говорит: да, другой говорит, что, возможно, можно применить взвешивание, и если его правильно, вы получите лучший из обоих классификаторов, но ради интереса, я не хочу конкурентный подход.
Другой вопрос состоит в том, чтобы использовать эти два метода вместе таким образом, было бы полезно, я знаю, что приведенный мной пример очень примитивен и может не применяться в этом примере, но может ли он быть полезен для более сложных данных.