Очистка дубликатов имен, имеющих определенные расширения - PullRequest
0 голосов
/ 29 октября 2018

В таблице данных столбец названия компании, некоторые компании появляются неоднократно с другим именем, например Apple, и Apple _ Не звоните. Я хочу рассмотреть только один вместо этого. Как мне очистить эти данные? Повторяющееся название компании имеет то же значение для других полей

Company Name     Volume
Apple              150
Wallmart           190
Apple_Do Not Call  150
Sapient            450
Apple inc.         150

Если вы посмотрите на данные, компания Apple несколько раз будет приходить с другим именем. Я хочу рассмотреть только одно значение, то есть Apple

1 Ответ

0 голосов
/ 30 октября 2018

Вы можете group_by в другом поле, имеющем те же значения (в данном случае это Volume), а затем использовать mutate для изменения названия компании на первое значение каждой группы group_by

dt %>% group_by(Volume) %>% mutate(Company_Name = first(Company_Name))

dt здесь будут ваши data.table

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...