Допустим, у меня есть таблица с 10.000 строками (представляющими 10.000 человек) и следующими столбцами:
id qualification gender age income
Когда я выбираю всех лиц, имеющих определенную квалификацию (скажем, «сантехник»), я получаю 100 строк, имеющих определенный пол, возраст и распределение доходов.
Теперь я хочу выбрать какую-нибудь группу тестирования, чтобы проверить, зависит ли доход от квалификации или распределения других атрибутов.
Это означает (и теперь я перехожу к своему вопросу), я хочу получить еще один набор из 100 строк, имеющих такое же распределение по полу и возрасту (но с другим значением квалификации). Эти 100 строк должны быть выбраны случайным образом.
Моя основная проблема заключается в том, что я не знаю, как написать команду SQL, которая бы позаботилась о распределениях (которые, конечно, могут и, возможно, должны рассматриваться как вероятности в этом контексте), когда я выбираю случайные строки.
Заранее спасибо!