Объединение вероятностей условного классификатора - PullRequest
0 голосов
/ 08 октября 2019

У меня есть несколько классификаторов документов, пытающихся предсказать правильный тип документа для документа. Для данного файла каждый классификатор выводит список вероятностей каждого типа документа. Я пытаюсь объединить прогнозы этих разных классификаторов в один список вероятностей.

Поскольку я хочу иметь возможность вручную решать, насколько надежным / эффективным будет каждый классификатор, я начал использовать средневзвешенное значение для объединения прогнозов.

Если мы рассмотрим пример с тремя классификаторами (Один, Два, Три) и тремя типами документов (T1, T2, T3). С помощью метода взвешенного среднего я бы вычислил Presult(T1) = (1 * Pone(T1) + 2 * Ptwo(T1) + 2 * Pthree(T1)) / (1 + 2 + 2) = 0.5

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.7   ║   0.1   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.8   ║   0.0   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   0.1   ║   0.2   ║   0.7   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║   0.5   ║   0.1   ║   0.4   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

Этот простой подход, кажется, работает, но все становится сложнее.

На самом деле, некоторые из моих классификаторов являются специализированными: они применяются не ко всему входному домену (полный список типов документов), а только к поддомену. Например, у меня может быть классификатор, который, учитывая форму IRS, может определять соответствующие вероятности того, что документ представляет собой форму W-2, W-3 или 1040. В этом случае выходные вероятности являются условными вероятностями.

Допустим, классификаторы Два и Три являются специализированными классификаторами. Классификатор Два применяется только к типам T1 и T2, а классификатор Три применяется только к типам T2 и T3. Моя новая таблица может выглядеть примерно так:

╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Classifier ║ Coefficient ║  P(T1)  ║  P(T2)  ║  P(T3)  ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ One        ║      1      ║   0.5   ║   0.3   ║   0.2   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Two        ║      2      ║   0.2   ║   0.8   ║   N/A   ║
╠════════════╬═════════════╬═════════╬═════════╬═════════╣
║ Three      ║      2      ║   N/A   ║   0.4   ║   0.6   ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝
╔════════════╦═════════════╦═════════╦═════════╦═════════╗
║ Results    ║      /      ║    ?    ║    ?    ║    ?    ║
╚════════════╩═════════════╩═════════╩═════════╩═════════╝

Однако в этом случае не имеет смысла использовать взвешенное среднее значение для вычисления окончательных вероятностей, потому что мы будем добавлять вероятности в разных областях,Я пытался составить несколько подходов, но не смог найти ничего адаптированного. Есть ли у вас какие-либо идеи или указатели на существующие методы для объединения этих разных предсказаний в одно?

Спасибо за чтение;)

PS: Я извиняюсь за отсутствие математического формализмавопрос, но не знал, как правильно написать.

...