корреляция между двумя переменными (категориальной и непрерывной) в python - PullRequest
1 голос
/ 10 марта 2020

Я борюсь с простой проблемой, когда мне нужно проверить, влияет ли местоположение клиента на количество дефектов.

Набор данных похож на. Местоположение имеет 50 значений и носит категорический характер и дефекты непрерывны.

location  defects
a            20
b            30
c            40
d            50
e            60
f            70
g            80

Ответы [ 2 ]

0 голосов
/ 10 марта 2020

Очень просто. Вы можете использовать LabelEncoder для преобразования категориального в числовое значение.

Пример:

from sklearn.preprocessing import LabelEncoder
import numpy as np

#data
location = np.array(['a','b','a'])
defects = np.array([1,2,1])

# the encoder
lb_make = LabelEncoder()
converted= lb_make.fit_transform(location) # convert to numerical

print(converted)
array([0, 1, 0])

np.corrcoef(defects,converted)[0][1]
0.9999999999999998
0 голосов
/ 10 марта 2020

Таким образом, вы в основном хотите рассчитать (ratio_for_location) = (number_of_defects_for_location) / (total_number_of_whwhat_for_location) и проверить наличие выбросов / найти функцию дефект_ракционирование (местоположение)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...