У меня есть данные о доходах многих переписных участков в конкретной географической области c. Параметр в наборе данных - это количество домохозяйств в пределах определенного диапазона доходов (сгруппированы доходы: доход_10k_15K, доход_15k_20k и т. Д. c.).
Хотя каждый переписной участок содержит данные о среднем доходе домохозяйства, Я хочу рассчитать средний доход домохозяйства для ВСЕХ переписных участков, агрегированный. Я обнаружил, что это не так просто, как «медиана медиан». Поэтому я наткнулся на распределение Парето , как способ вычисления общей медианы населения по бин-данным. Основной ресурс, который я использовал, чтобы определить, какие уравнения нужны: https://s4.ad.brown.edu/Projects/Diversity/SUC/MHHINote.htm
До сих пор я суммировал подсчет домохозяйств для каждой корзины:
+----+-----------------------+--------+--+--+
| 1 | income_Less_Than_10k | 184430 | | |
+----+-----------------------+--------+--+--+
| 2 | income_10k_15k | 151322 | | |
+----+-----------------------+--------+--+--+
| 3 | income_15k_20k | 140216 | | |
+----+-----------------------+--------+--+--+
| 4 | income_20k_25k | 147593 | | |
+----+-----------------------+--------+--+--+
| 5 | income_25k_30k | 143893 | | |
+----+-----------------------+--------+--+--+
| 6 | income_30k_35k | 142874 | | |
+----+-----------------------+--------+--+--+
| 7 | income_35k_40k | 135324 | | |
+----+-----------------------+--------+--+--+
| 8 | income_40k_45k | 150240 | | |
+----+-----------------------+--------+--+--+
| 9 | income_45k_50k | 132710 | | |
+----+-----------------------+--------+--+--+
| 10 | income_50k_60k | 268474 | | |
+----+-----------------------+--------+--+--+
| 11 | income_60k_75k | 389201 | | |
+----+-----------------------+--------+--+--+
| 12 | income_75k_100k | 580368 | | |
+----+-----------------------+--------+--+--+
| 13 | income_100k_125k | 523282 | | |
+----+-----------------------+--------+--+--+
| 14 | income_125k_150k | 401480 | | |
+----+-----------------------+--------+--+--+
| 15 | income_150k_200k | 568135 | | |
+----+-----------------------+--------+--+--+
| 16 | income_more_than_200k | 843896 | | |
+----+-----------------------+--------+--+--+
Откуда я знаю, что я выбрал правильную «корзину» для использования в качестве основы для a и b в интерполяции Парето? Из вышеупомянутого ресурса:
a = значение дохода на нижней границе категории, содержащей медиану
b = значение дохода на верхней границе категории, содержащей медиану
Па = доля распределения, лежащая ниже нижнего предела
Pb = доля распределения, лежащая ниже верхнего предела
Если я пытаюсь найти в целом, как я узнаю, какую корзину выбрать в качестве основы для расчета парето? Это похоже на априорное предположение, верно? Если я выберу лоток "come_25k_30k ", то:
a = 25 000
b = 30 000
Па = сумма (общее количество домашних хозяйств) <25000) / сумма (все домохозяйства) </p>
Pb = сумма (общее количество домохозяйств <30000) / сумма (все домохозяйства) </p>
Когда я это делаю, моя общая медианная оценка с помощью парето-кальков = 48,7094,90
Если я решу использовать корзину «доход_100k_125k» в качестве ориентира, то общая медиана = 95 863,35 $, что, очевидно, сильно отличается от первой оценки. Как выбрать корзину для выбора на основе этого расчета?