Как найти корреляцию между категориальными данными и непрерывными данными? - PullRequest
0 голосов
/ 28 июня 2019

Итак, у меня есть 20 различных номинальных категориальных переменных, которые являются независимыми переменными.Каждая из этих переменных 2-10 категорий. Эти независимые переменные имеют строковый тип и будут использоваться для прогнозирования зависимой переменной, называемой ценой, которая является непрерывной переменной.

Какой алгоритм я использую, чтобы найти корреляцию каждогопеременная и выбрать лучшие переменные?

Примечание: я еще не построил модель машинного обучения и использую Python.

Я пробовал f_oneway ANOVA из sklearn, но он не находиткорреляция, вместо этого он сравнивает только между самой группой.Я нашел корреляцию между непрерывными переменными для независимых и зависимых переменных.Помощь очень ценится

1 Ответ

1 голос
/ 28 июня 2019

Я не уверен насчет sklearn, но, возможно, эта информация приблизит вас на шаг. Прежде всего, когда мы говорим о категориальных данных, мы не говорим о корреляции, мы говорим об ассоциации.

Вообще говоря, вам нужно использовать ANOVA, квадрат хи или что-то подобное для сбора информации о связи между категориальной переменной и непрерывной переменной.

С помощью ANOVA мы можем рассчитать дисперсию между группами и внутри группы, а затем сравнить их. Посмотрите на этот пост, он, вероятно, будет иметь больше смысла, чем я пытаюсь объяснить:

Нажмите здесь

...