НЛП записывает грязные данные из открытых данных о местоположении (может потребоваться расстояние grepl / stringdist / levenshtein) - PullRequest
0 голосов
/ 25 сентября 2019

У меня есть очень грязные данные, которые я пытаюсь очистить.Ищите элегантное решение в R, которое бы правильно определяло, есть ли зарубежные поездки или нет (TRUE = зарубежные поездки, FALSE = внутренние поездки / поездки в США).

Есть несколько проблем с данными, включая:как в сокращенном, так и в сокращенном формате - орфографические ошибки - разные форматы (т. е. просто штат, город, запятая, город с косой чертой и т. д.) - данные в штате / стране могут содержать город, а не штат / страну и наоборот для столбца города.

В столбце «Зарубежные поездки» решение должно быть перезаписано таким образом, что если в столбце «Штат / страна» или «Город» указано «Зарубежные поездки», оно будет закодировано как «ИСТИНА», иначе «ЛОЖЬ».

    `State/Country`          `Foreign Travel`                   City         
   <chr>                            <lgl>                    <chr>        
 1 CA                                FALSE             San Francisco
 2 California                        FALSE             San Francisco
 3 British Columbia, Canada          TRUE              Vancouver    
 4 Florida                            NA               Hollywood    
 5 TX                                 NA               Dallas       
 6 Florda                             NA               Orlando 
 7 FL/CA                              NA               Orlando, Sacramennto 
 8 bufalo                             NA               NY
 9 d.c                               FALSE             washington dc
 10 frt wort, tx                     FALSE             texass
 10 frt wort, tx                     FALSE             texass
 12 japan                            NA                japan
 13 W?rzburg                         FALSE             germany

Я пытался использовать, если элемент в столбце находится в городах страны США в пакете карт с, но у меня возникли проблемы с упомянутыми выше несоответствиями.

...