Преобразование DataFrame в Rstudio: добавление / удаление категорий и расчет - PullRequest
1 голос
/ 25 апреля 2019

Я довольно новичок в Rstudio и кодировании в целом.

Я пытаюсь изменить информационный кадр, аналогичный информационному фрейму "cars" (мой называется "страны").Его тип - список.

Первый столбец - это название страны (тип chr).Второй столбец - это данные (тип dbl).

   Country          Number
 1 Portugal         100000       
 2 Poland           200000       
 3 Israel           300000
 4 South Africa     400000
 5 Austria          500000

Я хочу переименовать / сгруппировать страны в первом столбце по «Другие», если число превышает 250000 (например), а затем построить график с помощью ggplot.

На данный момент у меня есть хорошая гистограмма, но сейчас я хочу иметь одну с «другими».Панель «Другие» будет просто суммой числа по стране.

Какой метод наиболее эффективен для манипулирования данными?Чтобы создать функцию с «если» и применить ее к кадру данных?Или создать новый столбец с двумя категориями, а затем суммировать все «другие»?

Я уже пытался манипулировать кодом с помощью канала %>% и mutate.

Большое спасибо за вашепомощь

1 Ответ

0 голосов
/ 25 апреля 2019

решение состоит в том, чтобы использовать dplyr для изменения названия страны в соответствии с правилом, а затем агрегировать результаты с помощью функций group_by / sumrize.Ниже вы найдете небольшой пример.

countries <- data.frame(Country= c("Portugal","Poland","Israel","South Africa","Austria"), 
                        Number = c(100000,200000,300000,400000,500000), stringsAsFactors = F)

# using dplyr
countries_dp <- countries  %>%
  mutate(Country = ifelse(Number > 250000, "Other", Country)) %>%
  group_by(Country) %>%
  summarise(Number = sum(Number))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...