У меня есть очень грязные данные, которые я пытаюсь очистить.Ищите элегантное решение в R, которое бы правильно определяло, есть ли зарубежные поездки или нет (TRUE = зарубежные поездки, FALSE = внутренние поездки / поездки в США).
Есть несколько проблем с данными, включая:как в сокращенном, так и в сокращенном формате - орфографические ошибки - разные форматы (т. е. просто штат, город, запятая, город с косой чертой и т. д.) - данные в штате / стране могут содержать город, а не штат / страну и наоборот для столбца города.
В столбце «Зарубежные поездки» решение должно быть перезаписано таким образом, что если в столбце «Штат / страна» или «Город» указано «Зарубежные поездки», оно будет закодировано как «ИСТИНА», иначе «ЛОЖЬ».
`State/Country` `Foreign Travel` City
<chr> <lgl> <chr>
1 CA FALSE San Francisco
2 California FALSE San Francisco
3 British Columbia, Canada TRUE Vancouver
4 Florida NA Hollywood
5 TX NA Dallas
6 Florda NA Orlando
7 FL/CA NA Orlando, Sacramennto
8 bufalo NA NY
9 d.c FALSE washington dc
10 frt wort, tx FALSE texass
10 frt wort, tx FALSE texass
12 japan NA japan
13 W?rzburg FALSE germany
Я пытался использовать, если элемент в столбце находится в городах страны США в пакете карт с, но у меня возникли проблемы с упомянутыми выше несоответствиями.