В чем разница между матрицей путаницы и таблицей непредвиденных обстоятельств? - PullRequest
13 голосов
/ 30 сентября 2011

Я пишу фрагмент кода для оценки моего алгоритма кластеризации, и я обнаружил, что для каждого метода оценки нужны базовые данные из матрицы m*n, такой как A = {aij}, где aij - это число точек данных, которые являются членами класса ci и элементами кластера kj.

Но, похоже, в матрице * 1008 есть два типа матриц этого типа. * Введение в интеллектуальный анализ данных (Панг-Нинг Тан и др.), Одна - Матрица путаницы, другая - Таблица непредвиденных обстоятельств. Я не до конца понимаю разницу между ними. Что лучше всего описывает матрицу, которую я хочу использовать?

Ответы [ 2 ]

23 голосов
/ 01 октября 2011

Определение Википедии :

В области искусственного интеллекта путаница является инструмент визуализации, обычно используемый в контролируемом обучении (в неконтролируемое обучение обычно называется матрицей соответствия). каждый столбец матрицы представляет экземпляры в прогнозируемом классе, в то время как каждая строка представляет экземпляры в реальном классе.

Матрица путаницы должна быть понятной, она в основном говорит, сколько фактических результатов соответствуют прогнозируемым результатам. Например, см. Эту матрицу путаницы

                 predicted class
                        c1  -  c2
  Actual class   c1     15  -   3
                ___________________
                 c2     0   -   2

Это говорит о том, что:

  1. Столбец1, строка 1 означает, что классификатор предсказал 15 элементов как принадлежащих к классу c1, и фактически 15 элементов относятся к классу c1 (что является правильным прогнозом)

  2. строка 1 второго столбца сообщает, что классификатор предсказал, что 3 элемента относятся к классу c2, но на самом деле они принадлежат классу c1 (что является неправильным прогнозом)

  3. Столбец 1, строка 2 означает, что ни один из элементов, которые на самом деле относятся к классу c2, не был предсказан как принадлежащий к классу c1 (что является неправильным прогнозом)

  4. В столбце 2 строки 2 указывается, что 2 элемента, принадлежащих к классу c2, были предсказаны как принадлежащие к классу c2 (что является правильным прогнозом)

Теперь посмотрите формулу точности и частоты ошибок из вашей книги (глава 4, 4.2), и вы сможете четко понять, что такое матрица путаницы. Он используется для проверки точности классификатора с использованием данных с известными результатами. Метод K-Fold (также упоминаемый в книге) является одним из методов расчета точности классификатора, который также упоминался в вашей книге.

Теперь для таблицы непредвиденных расходов: Определение Википедии :

В статистике таблица непредвиденных расходов (также называемая перекрестной таблица или кросс-таблица) представляет собой тип таблицы в матричном формате, который отображает (многовариантное) распределение частот переменных. Он часто используется для записи и анализа отношений между двумя или более категориальные переменные.

В интеллектуальном анализе данных таблицы сопряженности используются, чтобы показать, какие элементы появились в чтении вместе, например, в транзакции или в корзине анализа продаж. Например (это пример из книги, которую вы упомянули):

       Coffee  !coffee
tea    150       50      200
!tea   650       150     800
       800       200    1000   

Это говорит о том, что из 1000 ответов (ответы о том, нравится ли им кофе и чай или оба или один из них, результаты опроса):

  1. 150 человек любят и чай, и кофе
  2. 50 человек любят чай, но не любят кофе
  3. 650 человек не любят чай, но любят кофе
  4. 150 человек не любят ни чая, ни кофе

Таблицы сопряженности используются для поиска правил поддержки и достоверности ассоциации, в основном для оценки правил ассоциации (см. Главу 6, 6.7.1).

Теперь разница в том, что Матрица смешения используется для оценки производительности классификатора, и она сообщает, насколько точен классификатор при составлении прогнозов о классификации, а таблица непредвиденных обстоятельств используется для оценки правил ассоциации.

Теперь, прочитав ответ, немного погуглите (всегда пользуйтесь гуглом, когда читаете книгу), прочитайте, что в книге, посмотрите несколько примеров и не забудьте выполнить несколько упражнений, приведенных в книге. и у вас должно быть четкое представление о них обоих, а также о том, что использовать в определенной ситуации и почему.

Надеюсь, это поможет.

0 голосов
/ 12 февраля 2019

Короче говоря, таблица сопряженности используется для описания данных. и матрица путаницы, как уже указывали другие, часто используется при сравнении двух гипотез. Можно предсказать предсказанную или фактическую классификацию / категоризацию как две гипотезы, при этом основополагающая истина является нулевым, а выход модели - альтернативой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...