Как readxl неправильно читает файл Excel xlsx и как это исправить? - PullRequest
0 голосов
/ 25 января 2020

Я пытаюсь загрузить и прочитать файл xlsx из 2016 г. Канзасский государственный факультет насчитывает.

https://www.k-state.edu/pa/faculty/demographics/total/index.html

Когда создается тиббл, некоторые цифры не соответствует исходному файлу Excel.

url <- "https://www.k-state.edu/pa/faculty/demographics/total/t2016.xlsx"

download.file(url, destfile = "t2016.xlsx",  mode = "wb")

library(readxl)

kansas_state <- read_xlsx("t2016.xlsx", skip = 165, col_names = FALSE)

gender <- kansas_state[1:4]
names(gender) <- c("COLLEGE", "N", "Male", "F")
gender

Я читаю самую последнюю таблицу в таблице Excel с итогами по каждому колледжу.

enter image description here

Тогда, если вы откроете файл Excel и посмотрите на последнюю таблицу «Итоги университета», некоторые цифры не совпадут. Например, Сельскохозяйственный колледж, но Архитектурный колледж делает это ...?

enter image description here

Я также поделился ссылкой на github publi c здесь для Проект rstudio на этом примере:

https://github.com/AdamUArk/r_readxl_example

1 Ответ

2 голосов
/ 25 января 2020

В этом файле есть скрытые листы, поэтому read_xlsx() читает с одного из этих листов вместо листа, который вы обычно видите. Чтобы прочитать тот, который вы хотите, добавьте sheet = 'Totals' к аргументам read_xlsx().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...