Могу ли я предложить 5 лучших классов для новых данных с использованием Multi-class Classification? - PullRequest
0 голосов
/ 12 октября 2019

У меня есть набор данных билетов, которые машина получает на отказ некоторых компонентов машины. Билет в текстовом виде.

На каждый сбой у нас имеется около 8-10 диагностических ярлыков. Это говорит о том, что проблема могла быть и используется для исправления заявки.

Теперь в данных тренировок у меня есть один билет и 1 диагностическая этикетка. Так что это данные обучения Multi-класс.

После обучения мультиклассовой модели ML, учитывая новую текстовую проблему, могу ли я предложить 5 лучших диагнозов для этого возможного билета на основе ранжирования вероятностей?

Меня беспокоит то, что это имеет смысл для данных с несколькими метками, где данные обучения также имеют несколько меток, и вы можете в конце включить сигмовидную активацию, чтобы получить надлежащую проверку каждого диагноза, работающего для этого билета.

Но если данные об обучении оформлены как мультиклассы (то есть для одного билета была только одна соответствующая метка), можно ли мне рекомендовать несколько меток для диагноза в порядке ранжирования?

Спасибо

1 Ответ

0 голосов
/ 12 октября 2019

Конечно! Это ничем не отличается от возврата канонических топ-5 от CNN, прошедшего тренинг на ILSVRC-2012 (он же ImageNet). Ваша модель будет предлагать диагнозы в порядке вероятности их правильности.

Однако обратите внимание, что эти пять основных меток могут не отражать ваши реальные коллекции меток: они входят в пятерку лучших отдельных предположений, в то время как у ваших эмпирических билетов есть наборы связанных ярлыков.

Если важно, чтобы связанные потенциальные причины появлялись вместе в этих 5 лучших оценках, то вам нужно будет включить несколько ярлыков в тренингdata.

Например, рассмотрим несколько заявок в вашей базе данных:

Problem   Labels   Actual Cause (training label)
   1     A B C D       A
   2       B C         B
   3       B C   E     E
   4     A B C         C

Теперь рассмотрим вход в вашу обученную модель с характеристиками, аналогичными задачам 1 и 4. Я полагаю, чтоВаша модель вернет причины A & C в качестве первых двух. Будет ли иметь значение, если B действительно не появится в вашем списке "топ-5", несмотря на то, что он тесно связан с C?

Если вы хотите, чтобы эти "причины кластеров" былиотраженный в списке топ-5, вам нужно будет включить несколько ярлыков в ваше обучение. Если ваша цель состоит в том, чтобы предлагать только эмпирические результаты истории билетов, то лучше использовать только диагноз фактический .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...