Проблема группировки для концентрации рынка - PullRequest
0 голосов
/ 06 августа 2020

Я пытаюсь подсчитать концентрацию рынка автосалонов в разных странах и годах. county_index (например, Санта-Клара, Сан-Матео ...) и dealerships (Гигантские грузовики Джо и др. c.) - мои переменные.

Расчет концентрации, который я пытаюсь выполнить, является добавлением все отдельные квадратные доли для каждого года и округа:

my_panel <- my_panel %>% 
  group_by(county_index, Year) %>% 
  mutate(count_dealerships = n()) %>% 
  ungroup(county_index,Year) %>% 
  group_by(dealership, county_index, Year) %>% 
  mutate(squared_shares = (n()/count_dealerships)^2) %>% 
  ungroup(dealership, county_index, Year) %>% 
  group_by(county_index,Year) %>% 
  mutate(concentration = sum(squared_shares)) %>% 
  ungroup(county_index,Year)

Расчет squared_squares, кажется, работает и дает мне разумное значение от 0 до 1 для каждого dealership. Расчет concentration не совсем понятен, поскольку он дает мне значения, намного превышающие 1, хотя оно должно быть ниже 1 для каждого округа, поскольку сумма squared_shares для каждого county_index должна прибавляться к 1.

Я неправильно смотрю на это? Буду признателен за любую помощь, и я счастлив использовать пакеты, отличные от dplyr, или базовый R.

...