Распределение Парето для расчета совокупных медианных доходов домохозяйств - Помощь в выборе корзины - PullRequest
0 голосов
/ 17 января 2020

У меня есть данные о доходах многих переписных участков в конкретной географической области c. Параметр в наборе данных - это количество домохозяйств в пределах определенного диапазона доходов (сгруппированы доходы: доход_10k_15K, доход_15k_20k и т. Д. c.).

Хотя каждый переписной участок содержит данные о среднем доходе домохозяйства, Я хочу рассчитать средний доход домохозяйства для ВСЕХ переписных участков, агрегированный. Я обнаружил, что это не так просто, как «медиана медиан». Поэтому я наткнулся на распределение Парето , как способ вычисления общей медианы населения по бин-данным. Основной ресурс, который я использовал, чтобы определить, какие уравнения нужны: https://s4.ad.brown.edu/Projects/Diversity/SUC/MHHINote.htm

До сих пор я суммировал подсчет домохозяйств для каждой корзины:

+----+-----------------------+--------+--+--+
| 1  | income_Less_Than_10k  | 184430 |  |  |
+----+-----------------------+--------+--+--+
| 2  | income_10k_15k        | 151322 |  |  |
+----+-----------------------+--------+--+--+
| 3  | income_15k_20k        | 140216 |  |  |
+----+-----------------------+--------+--+--+
| 4  | income_20k_25k        | 147593 |  |  |
+----+-----------------------+--------+--+--+
| 5  | income_25k_30k        | 143893 |  |  |
+----+-----------------------+--------+--+--+
| 6  | income_30k_35k        | 142874 |  |  |
+----+-----------------------+--------+--+--+
| 7  | income_35k_40k        | 135324 |  |  |
+----+-----------------------+--------+--+--+
| 8  | income_40k_45k        | 150240 |  |  |
+----+-----------------------+--------+--+--+
| 9  | income_45k_50k        | 132710 |  |  |
+----+-----------------------+--------+--+--+
| 10 | income_50k_60k        | 268474 |  |  |
+----+-----------------------+--------+--+--+
| 11 | income_60k_75k        | 389201 |  |  |
+----+-----------------------+--------+--+--+
| 12 | income_75k_100k       | 580368 |  |  |
+----+-----------------------+--------+--+--+
| 13 | income_100k_125k      | 523282 |  |  |
+----+-----------------------+--------+--+--+
| 14 | income_125k_150k      | 401480 |  |  |
+----+-----------------------+--------+--+--+
| 15 | income_150k_200k      | 568135 |  |  |
+----+-----------------------+--------+--+--+
| 16 | income_more_than_200k | 843896 |  |  |
+----+-----------------------+--------+--+--+

Откуда я знаю, что я выбрал правильную «корзину» для использования в качестве основы для a и b в интерполяции Парето? Из вышеупомянутого ресурса:

a = значение дохода на нижней границе категории, содержащей медиану

b = значение дохода на верхней границе категории, содержащей медиану

Па = доля распределения, лежащая ниже нижнего предела

Pb = доля распределения, лежащая ниже верхнего предела

Если я пытаюсь найти в целом, как я узнаю, какую корзину выбрать в качестве основы для расчета парето? Это похоже на априорное предположение, верно? Если я выберу лоток "come_25k_30k ", то:

a = 25 000

b = 30 000

Па = сумма (общее количество домашних хозяйств) <25000) / сумма (все домохозяйства) </p>

Pb = сумма (общее количество домохозяйств <30000) / сумма (все домохозяйства) </p>

Когда я это делаю, моя общая медианная оценка с помощью парето-кальков = 48,7094,90

Если я решу использовать корзину «доход_100k_125k» в качестве ориентира, то общая медиана = 95 863,35 $, что, очевидно, сильно отличается от первой оценки. Как выбрать корзину для выбора на основе этого расчета?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...