Ошибка чтения данных Corona из URL с read.csv в R - PullRequest
0 голосов
/ 23 апреля 2020

Раньше я без проблем считывал данные с github, и теперь я получаю сообщение об ошибке с тем же простым кодом.

x <- getURL("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv")
y <- read.csv(x, header = FALSE)

Ошибка в файле (файл, "rt"): не могу открыть соединение

Дополнительно:

Предупреждающее сообщение: в файле (файл, "rt"): невозможно открыть файл 'HTTP / 1.1 200 OK

Ответы [ 2 ]

1 голос
/ 23 апреля 2020

Использовать data.table::fread, работает, я только что проверил

data.table::fread("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv")

работает

Пример:

df <- data.table::fread("https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv")
df[,1:5]
 [0%] Downloaded 0 bytes...
                Province/State        Country/Region       Lat       Long 1/22/20
  1:                                     Afghanistan  33.00000  65.000000       0
  2:                                         Albania  41.15330  20.168300       0
  3:                                         Algeria  28.03390   1.659600       0
  4:                                         Andorra  42.50630   1.521800       0
  5:                                          Angola -11.20270  17.873900       0
 ---                                                                             
260: Saint Pierre and Miquelon                France  46.88520 -56.315900       0
261:                                     South Sudan   6.87700  31.307000       0
262:                                  Western Sahara  24.21550 -12.885800       0
263:                           Sao Tome and Principe   0.18636   6.613081       0
264:                                           Yemen  15.55273  48.516388       0
0 голосов
/ 23 апреля 2020

Используйте URL-адрес непосредственно как файл и установите header=TRUE:

file <- "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

y <- read.csv(file, header = TRUE)

Или используйте read_delim из пакета readr :

library("readr")
dat <- read_delim(file, delim=",")

Формат Ковидные данные не идеальны для дальнейшего анализа в R, но могут быть легко преобразованы с помощью пакета reshape2 или dplyr :

names(dat)[1:2] <- c("Province_State", "Country_Region")

library("dplyr")
dat2 <-
  dat %>%
  ## summarize Country/Region duplicates
  group_by(Country_Region) %>% summarise_at(vars(-(1:4)), sum) %>%
  ## make it a long table
  pivot_longer(cols = -Country_Region, names_to = "time") %>%
  ## convert to ISO 8601 date
  mutate(time = as.POSIXct(time, format="%m/%e/%y"))
...