Проблема с загрузкой огромного файла Excel (100 МБ) при использовании read_xlsx. Возвращает неверно "ИСТИНА" в некоторых ячейках - PullRequest
0 голосов
/ 14 сентября 2018

Я работаю с огромным фреймом данных, и у меня возникли проблемы с загрузкой его из файла Excel.Я мог только загрузить его, используя read_xlsx из пакета readxl.Однако теперь я понял, что некоторые из ячеек содержат «ИСТИНА» вместо реального значения из файла Excel.Как он может загрузить файл неправильно и есть ли решение, чтобы избежать этого?

1 Ответ

0 голосов
/ 15 сентября 2018

Следуя этому совету, проблема решена.

JasonAizkalns: Трудно сказать, но это может быть вызвано тем, что read_xlsx "угадывает" типы столбцов. Если вы заранее знаете тип столбца, всегда лучше указывать их с помощью параметра col_types. В этом случае он мог догадаться, что тип столбца был логичным, хотя на самом деле он должен быть чем-то другим (скажем, текстовым или числовым)

Очистка набора данных от столбцов без числовых значений с последующим использованием x<-read_xlsx(filename, skip = 1, col_types = "numeric"). Далее я y<- read_xlsx(filename, skip = 1, col_types = "date") в столбце, содержащем даты. Я использовал cbind (y, x), чтобы дополнить набор данных не числовым столбцом. Кажется, что read_xlsx неправильно интерпретирует столбцы с числовыми значениями, если пропущено много значений.

...