# 1 Объединение категорий категориальной переменной - PullRequest
0 голосов
/ 30 апреля 2020

Я хотел бы объединить названия некоторых политических партий Бразилии из категориальной переменной (partido_pref), которая была неправильно закодирована.

Категории, которые я хотел бы объединить: «P C do B» и «PCdoB», а также «PT do B» и «PTdoB». Партии с пробелами и без них являются одними и теми же партиями.

Я бы предпочел сделать это в Stata, но я также могу работать над R.

Ниже вы найдете список политических партий.

. tab partido_pref

partido_pref | Freq. Percent Cum.

    ---------------+-----------------------------------
    DEM | 2,267 2.14 2.14
    NA | 34,848 32.84 34.98
    Não disponível | 2 0.00 34.98
    Outra situação | 19 0.02 35.00
    PAN | 6 0.01 35.00
    PC do B | 260 0.25 35.25
    PCB | 2 0.00 35.25
    PCdoB | 7 0.01 35.26
    PCO | 1 0.00 35.26
    PDT | 3,933 3.71 38.97
    PFL | 6,811 6.42 45.39
    PHS | 194 0.18 45.57
    PL | 2,525 2.38 47.95
    PMDB | 14,833 13.98 61.93
    PMN | 410 0.39 62.31
    PP | 5,467 5.15 67.47
    PPB | 1,661 1.57 69.03
    PPL | 10 0.01 69.04
    PPS | 2,493 2.35 71.39
    PR | 1,861 1.75 73.14
    PRB | 298 0.28 73.43
    PRN | 9 0.01 73.43
    PRONA | 26 0.02 73.46
    PRP | 273 0.26 73.72
    PRTB | 121 0.11 73.83
    PSB | 2,905 2.74 76.57
    PSC | 480 0.45 77.02
    PSD | 816 0.77 77.79
    PSDB | 11,316 10.66 88.45
    PSDC | 121 0.11 88.57
    PSL | 273 0.26 88.83
    PSOL | 4 0.00 88.83
    PST | 48 0.05 88.87
    PSTU | 1 0.00 88.88
    PT | 5,258 4.96 93.83
    PT do B | 139 0.13 93.96
    PTB | 5,383 5.07 99.03
    PTC | 140 0.13 99.17
    PTdoB | 10 0.01 99.18
    PTN | 108 0.10 99.28
    PV | 702 0.66 99.94
    Recusa | 2 0.00 99.94
    Sem partido | 62 0.06 100.00
    ---------------+-----------------------------------
    Total | 106,105 100.00

Заранее спасибо!

Ответы [ 2 ]

1 голос
/ 30 апреля 2020

Если ваша проблема только в том, чтобы избавиться от пробелов:

replace partido_pref = subinstr(partido_pref,  " ", "")

См. help string_functions для получения дополнительных опций.

R более гибок, но Stata может обрабатывать этот уровень простого текста управление.

1 голос
/ 30 апреля 2020

Один вариант: fct_collapse из forcats

library(forcats)
fct_collapse(df1$partido_pref, pc = c( "PC do B", "PCdoB"),
                    pt = c( "PT do B", "PTdoB"))
...