Статистика - Pyspark - добавление веса - PullRequest
0 голосов
/ 16 апреля 2020

Я не знаю, подходит ли SOverFlow для публикации вопросов о статистике, но давайте попробуем.

Предположим, я хочу сравнить средние расходы в обеих группах, и у меня есть две группы с 2 функции в каждой: каждый клиент уникален, и CityCode имеет только 2 группы CA и CB, а AgeCode также имеет только 2 группы SA и SB.

1-я группа:

ClientID - CityCode - AgeCode - Avg Spending
   1        CA          SA          $100
   2        CA          SB          $300
   3        CA          SA          $400
   4        CB          SB          $100
   5        CB          SA          $200

2-я группа :

   ClientID -CityCode -  AgeCode - Spending
       1        CA          SB        $100
       2        CB          SB        $100
       3        CB          SB        $100
       4        CB          SB        $500
       5        CB          SA        $600
       6        CA          SB        $200
       7        CA          SB        $100
       8        CB          SA        $100
       9        CA          SA        $100
      10        CB          SB        $100

Итак, мой пропорциональный кадр данных будет:

Combination - 1st Group - 2nd Group
   CA & SA       40%         10%             
   CA & SB       20%         30%
   CB & SA       20%         20%
   CB & SB       20%         40%

Чтобы сделать группу сопоставимой, я хочу добавить пропорциональный вес для второй группы, чтобы иметь такое же процентное распределение из 1-й группы, другими словами, что я хочу сделать:

Combination - 1st Group - 2nd Group - Weight add - New % 2nd Group
   CA & SA       40%         10%          4.00          40% 
   CA & SB       20%         30%          0.66          20%
   CB & SA       20%         20%          1.00          20%
   CB & SB       20%         40%          0.50          20%

После этой новой весовой пропорции я был бы готов рассчитать среднюю разницу расходов между обеими группами.

Кто-нибудь знакомы с этим методом калибровки? Есть ли смысл? Вы когда-нибудь видели что-нибудь знакомое с этим?

Кроме того, знаете ли вы какую-нибудь библиотеку pyspark, способную рассчитать эти веса?

Большое спасибо

...