Удаление всех записей в df, начинающихся с цифр, и объединение времен слов с помощью R - PullRequest
0 голосов
/ 03 августа 2020

Итак, у меня есть примерно такой фрейм данных:

word        count
employee    500       
jack        202       
employee's  199       
012hen      10
93          1
20          1
word        1
words       1
worded      1

Итак, я пытался использовать здесь gsub, но я слишком сильно его испортил.

В принципе, я хочу чтобы удалить любую запись в word, содержащую число, и я хотел бы объединить словарные записи с одинаковой базой.

Итак, здесь сотрудники и сотрудники должны быть сгруппированы вместе. Дополнительно должны быть слова, слова и формулировки.

Цель:

word        count
employee    699       
jack        202            
word          3

1 Ответ

1 голос
/ 04 августа 2020

Это частичный ответ, потому что я знаю, как удалить все записи с цифрами. Я не уверен во второй части о сворачивании производных слов.

Чтобы удалить числа, вы действительно можете использовать регулярные выражения. Я предпочитаю подмножество на основе результатов grepl.

df[!grepl("[0-9"], df$word),]
        word count
1   employee   500
2       jack   202
3 employee's   199
7       word     1
8      words     1
9     worded     1
...