Здесь происходит несколько проблем:
1) страны считаются факторами, когда вы читаете данные с использованием read.csv
; Вы можете решить это с помощью аргумента stringsAsFactors = FALSE
2) slice_tail
, не уверенного, откуда это происходит; dplyr::slice
что вы ищете?
df <- read.csv ('https://raw.githubusercontent.com/ulklc/covid19-timeseries/master/countryReport/raw/rawReport.csv',
stringsAsFactors = FALSE)
#This data set contains countries and population information.
df8 <- read.csv ('https://raw.githubusercontent.com/hirenvadher954/Worldometers-Scraping/master/countries.csv',
stringsAsFactors = FALSE)
library(dplyr)
library(stringr
df %>%
left_join(df8, by = c("countryName" = "country_name")) %>%
mutate(population = as.numeric(str_remove_all(population, ","))) %>%
group_by(countryName) %>%
slice(1) %>%
group_by(region) %>%
summarize(population = sum(population, na.rm = TRUE))
Это дает вам:
df
## # A tibble: 5 x 2
## region population
## <chr> <dbl>
## 1 Africa 1304908713
## 2 Americas 1019607512
## 3 Asia 4592311527
## 4 Europe 738083720
## 5 Oceania 40731992