Я не знаю, подходит ли SOverFlow для публикации вопросов о статистике, но давайте попробуем.
Предположим, я хочу сравнить средние расходы в обеих группах, и у меня есть две группы с 2 функции в каждой: каждый клиент уникален, и CityCode имеет только 2 группы CA и CB, а AgeCode также имеет только 2 группы SA и SB.
1-я группа:
ClientID - CityCode - AgeCode - Avg Spending
1 CA SA $100
2 CA SB $300
3 CA SA $400
4 CB SB $100
5 CB SA $200
2-я группа :
ClientID -CityCode - AgeCode - Spending
1 CA SB $100
2 CB SB $100
3 CB SB $100
4 CB SB $500
5 CB SA $600
6 CA SB $200
7 CA SB $100
8 CB SA $100
9 CA SA $100
10 CB SB $100
Итак, мой пропорциональный кадр данных будет:
Combination - 1st Group - 2nd Group
CA & SA 40% 10%
CA & SB 20% 30%
CB & SA 20% 20%
CB & SB 20% 40%
Чтобы сделать группу сопоставимой, я хочу добавить пропорциональный вес для второй группы, чтобы иметь такое же процентное распределение из 1-й группы, другими словами, что я хочу сделать:
Combination - 1st Group - 2nd Group - Weight add - New % 2nd Group
CA & SA 40% 10% 4.00 40%
CA & SB 20% 30% 0.66 20%
CB & SA 20% 20% 1.00 20%
CB & SB 20% 40% 0.50 20%
После этой новой весовой пропорции я был бы готов рассчитать среднюю разницу расходов между обеими группами.
Кто-нибудь знакомы с этим методом калибровки? Есть ли смысл? Вы когда-нибудь видели что-нибудь знакомое с этим?
Кроме того, знаете ли вы какую-нибудь библиотеку pyspark, способную рассчитать эти веса?
Большое спасибо