Подмножество / фильтрация для определенных строк в R - со стандартными функциями или dbplyr? - PullRequest
0 голосов
/ 22 мая 2019

Я пытаюсь разделить данные из BLS, чтобы дифференцировать строки с кодами NAIC в разные категории.В настоящее время они все в одном столбце, с # длинами от 2-6.В идеале я хотел бы, чтобы мой фрейм данных включал 4 новых двоичных столбца (0, 1), чтобы я мог сохранить фрейм данных со всеми исходными значениями и вызывать новые столбцы кода NAIC отдельно.

Данные:

naic_codes year             area_title          own_title                                             industry_title annual_avg_emplvl
1           10 2017 Kansas City, MO-KS MSA      Total Covered                                   101 Total, all industries           1031619
2           10 2017 Kansas City, MO-KS MSA Federal Government                                   10111 Total, all industries             26982

Я пробовал несколько методов для поднабора, чтобы я мог отфильтровать коды только по соответствующим им длинам записей.Варианты, которые я пытался включить, включают фильтр, выбор, подмножество, изменение значений на факторы / символы / цифры / целые числа.

df3 %>% filter_at(vars(starts_with("naic_codes")), any_vars(.<= 99))

new <- df2[nchar(df2$naics_code) ==2]

Я получаю либо сообщения об ошибках, либо неиспользуемые аргументы R, новые векторы со значениями NULL или новый вектор с такими же значениями без каких-либофильтрация.

1 Ответ

0 голосов
/ 23 мая 2019

простой способ сделать это - преобразовать столбец в коэффициенты и использовать 1 горячее кодирование

...