Как найти корреляцию между нечисловыми значениями? - PullRequest
0 голосов
/ 23 октября 2019

Я пытаюсь найти корреляцию между нечисловыми демографическими переменными, которые в настоящее время хранятся в виде переменных. Если у меня есть две переменные, этническая принадлежность и государство, как я могу найти их соотношение? Я попробовал следующее:

select corr(customer_ethnicity, customer_state) from my_table;

Однако я получил ошибку, потому что не могу найти корреляцию между varchars.

Я думал о присвоении числовых значений для каждой демографии, но я не уверен, что это сработает, потому что переменные не являются ни кардинальными, ни порядковыми. Я ищу что-то вроде коэффициента корреляции Пирсона.

Вот некоторые примеры данных:

Customer ID, Customer Ethnicity, Patient State
003, Caucasian, DE
010, Caucasian, MA
030, Caucasian, DE
045, Hispanic, TX
044, Hispanic, TX

В идеале, я хотел бы получить некоторую числовую корреляцию между -1 и 1, которая бы отображала, насколько коррелированачья-то этническая принадлежность принадлежит их государству.

...