Ошибка оценки в RHS с помощью dplyr: case_when () - PullRequest
0 голосов
/ 06 июля 2019

Я использую данные CSES (Сравнительное исследование избирательных систем), чтобы оценить идеологическую дистанцию ​​между избирателями и партиями.

Я использовал приведенную здесь команду case_when: Изменение имен строк в кадре данных с букв на цифры в R

Это работало очень хорошо для некоторых переменных, но теперь яя пытаюсь использовать тот же код с похожими переменными (все они числовые), и это приводит к следующей ошибке: Ошибка в mutate_impl (.data, dots):

Ошибка оценки: RHS для случая 6(ex_ideolparty_F) должен иметь тип double, а не целое число.

Данные, которые я использую, предоставлены здесь: http://www.cses.org/datacenter/imd/data/cses_imd_r.zip

Я только сделал несколько преобразований в нем перед использованием case_when,Это точный код, который я запустил до появления ошибки:

library(dplyr)
library(descr)

load("/cses_imd.rdata")

##### DATA CLEANING/RENAMING #####

cses <- cses_imd  %>% 
  rename (election = IMD1004, country = IMD1006_NAM, type = IMD1009, age = IMD2001_1, gender = IMD2002,
          education = IMD2003, income = IMD2006, party =IMD3005_3, party_int = IMD3005_4, ideol_self = IMD3006,
          turnout = IMD5006_1, turnout_VAP = IMD5006_2, compulsory = IMD5007) %>%        
  select(election, country, type, age, gender, education, income, starts_with("IMD3002"), starts_with ("IMD3004"),
         party, party_int, ideol_self, starts_with("IMD3007"), turnout, turnout_VAP, compulsory,
         starts_with("IMD500"), starts_with("IMD501"))

### MORE RENAMING:

names (cses) <- gsub("IMD3002", "vote", names(cses)) 
names (cses) <- gsub("IMD3004", "prevote", names(cses)) 
names (cses) <- gsub("IMD3007", "ideolparty", names(cses)) 
names (cses) <- gsub("IMD5000", "numparty", names(cses)) 
names (cses) <- gsub("IMD5012", "ex_ideolparty", names(cses)) 
names (cses) <- gsub("IMD5013", "formula_house", names(cses)) 
names (cses) <- gsub("IMD5014", "formula_pres", names(cses)) 

cses$year <- as.numeric(substr(cses$election, 5, 8))


###### PERCEIVED IDEOLOGY OF THE PARTY VOTED #####

cses <- cses %>% mutate (
  ideol_voted_PR1 = case_when(
    numparty_A == vote_PR_1 ~ ideolparty_A,
    numparty_B == vote_PR_1 ~ ideolparty_B,
    numparty_C == vote_PR_1 ~ ideolparty_C,
    numparty_D == vote_PR_1 ~ ideolparty_D,
    numparty_E == vote_PR_1 ~ ideolparty_E,
    numparty_F == vote_PR_1 ~ ideolparty_F,
    numparty_G == vote_PR_1 ~ ideolparty_G,
    numparty_H == vote_PR_1 ~ ideolparty_H,
    numparty_I == vote_PR_1 ~ ideolparty_I,
    TRUE                    ~ vote_PR_1
  )
)

И вот где проблема возникает:

##### PERCEIVED IDEOLOGY OF PARTY VOTED (EXPERT PLACEMENT):

cses <- cses %>% mutate (
  ideol_ex_PR1 = case_when(
    numparty_A == vote_PR_1 ~ ex_ideolparty_A,
    numparty_B == vote_PR_1 ~ ex_ideolparty_B,
    numparty_C == vote_PR_1 ~ ex_ideolparty_C,
    numparty_D == vote_PR_1 ~ ex_ideolparty_D,
    numparty_E == vote_PR_1 ~ ex_ideolparty_E,
    numparty_F == vote_PR_1 ~ ex_ideolparty_F,
    numparty_G == vote_PR_1 ~ ex_ideolparty_G,
    numparty_H == vote_PR_1 ~ ex_ideolparty_H,
    numparty_I == vote_PR_1 ~ ex_ideolparty_I,
    TRUE                    ~ vote_PR_1
  )
)

Почему это произошло?Я проверил все столбцы, которые здесь используются, нет ничего отличного в случае 6 "ex_ideolparty_F" от других случаев, даже с случаями при первом использовании case_when, который работал нормально.Все эти столбцы числовые, а не двойные.

1 Ответ

1 голос
/ 06 июля 2019

Аналогично if_else, все возвращаемые значения должны быть одного типа, и в этом смысле numeric не совпадает с integer.

Если вы посмотрите на свои данные, у вас есть различия:

str(cses[,c("ex_ideolparty_A", "ex_ideolparty_B", "ex_ideolparty_C", "ex_ideolparty_D", "ex_ideolparty_E", "ex_ideolparty_F", "ex_ideolparty_G", "ex_ideolparty_H", "ex_ideolparty_I", "vote_PR_1")])
# 'data.frame': 281083 obs. of  10 variables:
#  $ ex_ideolparty_A: num  6 6 6 6 6 6 6 6 6 6 ...
#  $ ex_ideolparty_B: num  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_C: num  7 7 7 7 7 7 7 7 7 7 ...
#  $ ex_ideolparty_D: num  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_E: num  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_F: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_G: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_H: int  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_I: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ vote_PR_1      : int  9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 ...

В зависимости от ваших данных, если все они предназначены для целых чисел, вы можете исправить это с помощью:

cses <- cses %>%
    mutate_at(vars(ex_ideolparty_A, ex_ideolparty_B, ex_ideolparty_C, ex_ideolparty_D, ex_ideolparty_E, ex_ideolparty_F, ex_ideolparty_G, ex_ideolparty_H, ex_ideolparty_I, vote_PR_1),
              as.integer)
str(cses[,c("ex_ideolparty_A", "ex_ideolparty_B", "ex_ideolparty_C", "ex_ideolparty_D", "ex_ideolparty_E", "ex_ideolparty_F", "ex_ideolparty_G", "ex_ideolparty_H", "ex_ideolparty_I", "vote_PR_1")])
# 'data.frame': 281083 obs. of  10 variables:
#  $ ex_ideolparty_A: int  6 6 6 6 6 6 6 6 6 6 ...
#  $ ex_ideolparty_B: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_C: int  7 7 7 7 7 7 7 7 7 7 ...
#  $ ex_ideolparty_D: int  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_E: int  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_F: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_G: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ ex_ideolparty_H: int  4 4 4 4 4 4 4 4 4 4 ...
#  $ ex_ideolparty_I: int  5 5 5 5 5 5 5 5 5 5 ...
#  $ vote_PR_1      : int  9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 9999996 ...

И тогда ваш case_when будет работать без ошибок.

(Вы можете предпочесть as.numeric, если есть даже шанс , что что-то не является целым.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...