У меня есть несколько классификаторов документов, пытающихся предсказать правильный тип документа для документа. Для данного файла каждый классификатор выводит список вероятностей каждого типа документа. Я пытаюсь объединить прогнозы этих разных классификаторов в один список вероятностей.
Поскольку я хочу иметь возможность вручную решать, насколько надежным / эффективным будет каждый классификатор, я начал использовать средневзвешенное значение для объединения прогнозов.
Если мы рассмотрим пример с тремя классификаторами (Один, Два, Три) и тремя типами документов (T1, T2, T3). С помощью метода взвешенного среднего я бы вычислил Presult(T1) = (1 * Pone(T1) + 2 * Ptwo(T1) + 2 * Pthree(T1)) / (1 + 2 + 2) = 0.5
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║ P(T1) ║ P(T2) ║ P(T3) ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One ║ 1 ║ 0.7 ║ 0.1 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two ║ 2 ║ 0.8 ║ 0.0 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three ║ 2 ║ 0.1 ║ 0.2 ║ 0.7 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results ║ / ║ 0.5 ║ 0.1 ║ 0.4 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
Этот простой подход, кажется, работает, но все становится сложнее.
На самом деле, некоторые из моих классификаторов являются специализированными: они применяются не ко всему входному домену (полный список типов документов), а только к поддомену. Например, у меня может быть классификатор, который, учитывая форму IRS, может определять соответствующие вероятности того, что документ представляет собой форму W-2, W-3 или 1040. В этом случае выходные вероятности являются условными вероятностями.
Допустим, классификаторы Два и Три являются специализированными классификаторами. Классификатор Два применяется только к типам T1 и T2, а классификатор Три применяется только к типам T2 и T3. Моя новая таблица может выглядеть примерно так:
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║ P(T1) ║ P(T2) ║ P(T3) ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One ║ 1 ║ 0.5 ║ 0.3 ║ 0.2 ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two ║ 2 ║ 0.2 ║ 0.8 ║ N/A ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three ║ 2 ║ N/A ║ 0.4 ║ 0.6 ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results ║ / ║ ? ║ ? ║ ? ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
Однако в этом случае не имеет смысла использовать взвешенное среднее значение для вычисления окончательных вероятностей, потому что мы будем добавлять вероятности в разных областях,Я пытался составить несколько подходов, но не смог найти ничего адаптированного. Есть ли у вас какие-либо идеи или указатели на существующие методы для объединения этих разных предсказаний в одно?
Спасибо за чтение;)
PS: Я извиняюсь за отсутствие математического формализмавопрос, но не знал, как правильно написать.