Пакет haven
сохраняет метки значений и отмеченные теги при чтении файлов Stata / SPSS.Например, в переменной GSS для самозанятости метки предполагают, что есть три различных типа значений NA:
library(tidyverse)
library(haven)
download.file(url="http://gss.norc.org/Documents/stata/2016_stata.zip",
destfile = "2016_stata.zip")
unzip("2016_stata.zip")
gss <- read_dta("GSS2016.dta")
attr(gss$wrkslf, "labels")
#> self-employed someone else DK IAP NA
#> 1 2 NA NA NA
Глядя на na_tag()
для этой переменной, мы можем подтвердить, что есть тритипы тегов NA:
table(na_tag(gss$wrkslf))
#>
#> d i n
#> 4 90 5
Мой вопрос: как нам определить, какие строки в labels
соответствуют каким из тегов NA?В этом примере мы можем сделать вывод, что теги d
, i
и n
, вероятно, соответствуют ярлыкам DK
, IAP
и NA
соответственно только на основе их букв (и мы всегда моглисм. документацию), но я бы хотел, если возможно, сделать это программным способом.
Это было бы полезно, если, например, вы хотите создать таблицу конкретной переменной, которая отображает значенияпеременная вместе с соответствующими ярлыками, в том числе для помеченных NA.