У меня есть набор данных, который содержит переменную enum (скажем, School Name), для которой я хочу создать произвольное распределение числа, и еще одну непрерывную переменную (скажем, тестовую оценку), которую я хотел бы включить ванализ, основанный на произвольном группировании.
Например:
school_name test_score student_id
washington 97 11112
adams 99 11113
jefferson 78 11114
washington 85 11115
washington 88 11116
monroe 75 11117
monroe 77 11118
monroe 68 11119
Я хотел бы найти среднюю оценку теста на основе размера школ (например, малых, средних и крупных школ)) - в идеале в одном запросе .
У меня нет данных о количестве учеников в школе в моих данных, поэтому мне нужно создать это путем группировки по названию школы и произвольного создания сегментов(например, в маленьких школах <100 учеников, в медицинских школах 101-500 и т. д.). </p>
Идеальный результат будет выглядеть так:
School_size Avg_score
Small 87
Med 89
Large 88
Большое спасибо за ваши мысли!