Интерпретация коэффициентов Matrix, interceptVector и Confusion matrix при многочленной логистической регрессии - PullRequest
0 голосов
/ 10 июня 2018

Может кто-нибудь объяснить, как интерпретировать coefficientMatrix, interceptVector, Confusion matrix

из multinomial logistic regression.

Согласно документации Spark:

Мультиклассовая классификация поддерживается посредством многочленной логистической (softmax) регрессии.В полиномиальной логистической регрессии алгоритм создает K наборов коэффициентов или матрицу размерности K × J, где K - количество классов результатов, а J - количество признаков.Если алгоритм соответствует члену перехвата, тогда доступен вектор перехватов длины K.

Я использовал пример с использованием spark ml 2.3.0 и получил этот результат.

enter image description here.

Если я проанализирую, что я получу:

* coefficientMatrix имеет размерность 5 * 11

interceptVector имеетразмерность 5

Если да, то почему the Confusion matrix имеет размерность 4 * 4?

Кроме того, кто-нибудь может дать толкование coefficientMatrix, interceptVector?

Почему я получаю отрицательные коэффициенты?

Если 5 - это число классов после классификации, почему я получаю 4 строки в the confusion matrix?

РЕДАКТИРОВАТЬ

Я забыл упомянуть, что я все еще новичок в машинном обучении и что мой поиск в Google не помог, так что, возможно, я получу Голосование вверх:)

1 Ответ

0 голосов
/ 10 июня 2018

Что касается матрицы путаницы 4x4: я представляю, что когда вы разделяете свои данные на тест и тренировку, в вашем тренировочном наборе присутствовало 5 классов и только 4 класса присутствовали в вашем тестовом наборе.Это может легко произойти, если распределение вашей переменной отклика не сбалансировано.
Вы должны попытаться выполнить некоторое разделение между тестом и обучением до моделирования.Если вы работаете с pyspark, вам может пригодиться эта библиотека: https://github.com/databricks/spark-sklearn

Теперь относительно отрицательных коэффициентов для мультиклассовой логистической регрессии: как вы упоминали, ваша возвращаемая форма factorMatrix составляет 5x11.Спарк сгенерировал пять моделей по принципу «один против всех».1-я модель соответствует модели, в которой положительный класс является 1-й меткой, а отрицательный класс состоит из всех других меток.Допустим, 1-й коэффициент для этой модели -2,23.Чтобы интерпретировать этот коэффициент, мы берем экспоненту -2,23, которая составляет (приблизительно) 0,10.Интерпретация здесь: «При увеличении на 1 единицу 1-го признака мы ожидаем уменьшения шансов положительного лейбла на 90%»

...