Я пытаюсь найти корреляцию между нечисловыми демографическими переменными, которые в настоящее время хранятся в виде переменных. Если у меня есть две переменные, этническая принадлежность и государство, как я могу найти их соотношение? Я попробовал следующее:
select corr(customer_ethnicity, customer_state) from my_table;
Однако я получил ошибку, потому что не могу найти корреляцию между varchars.
Я думал о присвоении числовых значений для каждой демографии, но я не уверен, что это сработает, потому что переменные не являются ни кардинальными, ни порядковыми. Я ищу что-то вроде коэффициента корреляции Пирсона.
Вот некоторые примеры данных:
Customer ID, Customer Ethnicity, Patient State
003, Caucasian, DE
010, Caucasian, MA
030, Caucasian, DE
045, Hispanic, TX
044, Hispanic, TX
В идеале, я хотел бы получить некоторую числовую корреляцию между -1 и 1, которая бы отображала, насколько коррелированачья-то этническая принадлежность принадлежит их государству.