Классовая корреляция и ее последствия - PullRequest
0 голосов
/ 20 октября 2018

Я просматривал набор данных радужной оболочки здесь: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/ и обнаружил следующее:

 Summary Statistics:
 Min  Max   Mean    SD   Class Correlation
sepal length: 4.3  7.9   5.84  0.83    0.7826   
sepal width: 2.0  4.4   3.05  0.43   -0.4194
petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

Что означает классовая корреляция и что можно сделать из этого, чтобы она была высокой или низкой дляособенность?

Ответы [ 2 ]

0 голосов
/ 20 октября 2018

Класс корреляции равен Коэффициент корреляции Пирсона между классом (иначе целевая переменная или отклик) и другими характеристиками (он же независимые переменные).

Коэффициент корреляции Пирсона Абсолют Диапазон значений от 0 до 1 (1 означает идеальное отношение).

Например, в вашем наборе данных Iris есть 3 класса (т.е. вид Iris), а именно: Setosa, Versicolour и Virginica .

С другой стороны, у вас есть 4 функций , а именно: длина чашелистика, ширина чашелистика, длина лепестка и ширина лепестка .

Хорошо найти корреляцию между классом сверху и одной из функций в наборе данных ... Почему?Чтобы увидеть, сколько эта особенность / атрибут стоит для класса.Другими словами, надежность класса по этому признаку.


Например, из вашего набора данных ширина лепестка имеет самую высокую корреляцию с классами (corr=0.9565), что означает: изменения ширины лепестка в значительной степени вызывают изменения в классахлинейно!

Таким образом, в результате функция ширина лепестка очень важна для моделирования набора данных, а также для прогнозирования любого будущего невидимого нового примера!

То же самое для длина лепестка , которая имеет очень высокую корреляцию с другими классами.


Как правило, абсолютное значение корреляции Пирсона можно интерпретировать какследующие:

  • Слабые: от 0,1 до 0,29
  • Средние: от 0,3 до 0,49
  • Сильные: от 0,5 до 1

иэто в соответствии со Стандартом Коэна.

0 голосов
/ 20 октября 2018

Параметр, по-видимому, описывает внутриклассовую корреляцию , которая является мерой сходства внутри класса или группы.

Более высокое значение указывает, что выборки из этого класса имеют тенденцию быть похожими, в то время какболее низкое значение указывает на обратное.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...