Как образец данных, которые должны быть распределены по различным критериям - PullRequest
0 голосов
/ 11 февраля 2019

Я ищу способ выборки данных, используя 2 различных критерия, есть ли кто-нибудь, кто может помочь?

У меня есть то, что я очистил с 2000 записей.Я хотел бы выбрать 100 клиентов, распределенных на 80% занятых и 20% самозанятых, кроме того, я должен применять другие критерии.Каждую из выбранных и самозанятых выборок необходимо будет дополнительно распределить по профессиям: 20% юристов, 10% докторов, 50% инженеров и 20% бухгалтеров.

Вот как выглядят данные:

Client ID | self employed | Profession
123456    | yes           |lawyer
123457    | no            |doctor
123458    | yes           |accountant
123459    | yes           |accountant
123460    | yes           |engineer
123461    | yes           |lawyer
123462    | no            |engineer
123456    | yes           |doctor
123456    | yes           |lawyer
123456    | yes           |engineer

1 Ответ

0 голосов
/ 11 февраля 2019

Я не могу помочь с SQL, но основная идея проста.Вам нужно пересечь категории занятости по профессиям, с желаемым процентом на полях.Затем заполните таблицу, умножив проценты строк и столбцов:

              employed | unemployed
              -------- | ----------- 
     Lawyer |      16% |         4% | 20%
     Doctor |       8% |         2% | 10%
   Engineer |      40% |        10% | 50%
 Accountant |      16% |         4% | 20%
              --------   ----------- 
                   80%          20%

Записи в таблице показывают, какой процент от каждой скрещенной категории вы хотите в своем образце.Поскольку вы хотите, чтобы общий размер выборки составлял 100, умножьте каждый процент на 100, чтобы получить желаемый размер выборки.Учитывая ваши заявленные пропорции, вам нужно 16 нанятых юристов, 4 безработных юриста, 8 нанятых врачей и т. Д.

Разделите ваши данные на подмножества, соответствующие 8 категориям, и случайным образом выберите соответствующее число из каждого подмножества.Я не знаю, предоставляет ли SQL возможность случайного тасования, но если это так, то это простой способ выбрать образец без замены.Перемешайте нанятых юристов и возьмите первые 16, перемешайте безработных адвокатов и возьмите первые 4 и так далее.Обратите внимание, что это предполагает, что в каждой категории достаточно элементов, чтобы предоставить выборку нужного размера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...