У меня есть набор данных, в котором есть информация о нескольких городах. Переменные включают% жителей, представляющих несколько различных расовых категорий,% жителей нескольких секторов занятости и т. Д. c. Я пытаюсь определить для каждой категории, насколько близок каждый город к четному расслоению среди вариантов.
Итак, для расы есть 4 расы, так что город, который составляет 25% от каждой ( например) 1, в то время как город, который был на 100% белым, был бы 0. Однако, с 7 секторами занятости, каждый должен был бы быть 14,29% для идеального результата (суть в том, что я делаю это по нескольким категориям с разное количество групп в каждой категории). Мой вывод будет столбцом, который имеет некоторую цифру c, показывающую, как равномерно распределена группа, на которую я смотрю (например, раса).
Я программирую на R, поэтому решение было бы неплохо, но я готов ответить на любой вопрос.
Вот пример фрейма данных, если это полезно
testdata <- structure(list(city = c("City1", "City2", "City3", "City4"), black = c(0.4, 0.1, 0.3, 0.2), white = c(0.3, 0.7, 0.1, 0.2), hisp = c(0.2, 0.1, 0.2, 0.2),asian = c(0.1, 0.1, 0.4, 0.4), service =c(0.10, 0.14, 0.4, 0.0),tech = c(0.00, 0.14, 0.6, 0.2),govt = c(0.15, 0.14, 0.0, 0.2),nonprofit = c(0.20, 0.14, 0.0, 0.3),agriculture = c(0.05, 0.14, 0.0, 0.1),manufacturing = c(0.40, 0.14, 0.0, 0.1),marketing = c(0.10, 0.16, 0.0, 0.1)), row.names = c(NA, -4L), class = "data.frame")