Получение дубликатов в Group_by () в R - PullRequest
0 голосов
/ 30 октября 2018

Я получаю дубликаты в моих результатах group_by () в R. Скажем, я пытаюсь сгруппировать следующий фрейм данных по имени:

name <- c("John", "Sally", "Sally", "Sue")
sales <- c(10, 20, 5, 30)
example <- data.frame(name, sales)
print(example)

Итак, я хотел создать таблицу, которая показывает все продажи для каждого продавца, используя следующий код:

library(dplyr)

example %>% group_by(name) %>% select(name, sales)

Однако я продолжаю перечислять "Салли" дважды. Вместо этого я хочу получить Салли только один раз с ее общими продажами (25). Как получить разные значения в моем столбце «имя»? Я весь день гуглил, потому что я думал, что group_by должен был это сделать.

Я использую Different ()? Я видел похожий пост для Python ЗДЕСЬ , и главный участник сказал, что пользователь должен попробовать использовать sort. Я на самом деле попробовал, но R Studio внезапно говорит, что не может найти «имена» объектов, когда я добавляю его, чтобы получить этот код:

example %>% sort(name) group_by(name) %>% select(name, sales)

Но когда я удалил функцию sort (), R удалось прочитать "group_by (name)" просто отлично. Чего мне не хватает?

Спасибо

1 Ответ

0 голосов
/ 30 октября 2018

Мы можем использовать summarise до sum «продажи», сгруппированные по «имени»

example %>% 
    group_by(name) %>% 
    summarise(sales = sum(sales))
...