Как читать в данных из книг Messy Excel - PullRequest
0 голосов
/ 08 октября 2018

Я имел дело с пациентами и финансовыми данными из больницы.Данные хранятся в .xlsx Excel книг.На каждом листе есть несколько страниц, растягивающихся по горизонтали и вертикали.Некоторые из столбцов имеют четко определенные имена, как вы хотели бы для R, но тогда другие не имеют или имеют текст между ними, не говоря уже о том, что кажется случайным.Иногда раздел имеет заголовок, который является результатом форматирования нескольких строк в одну строку.К сожалению, я не могу показать данные из-за конфиденциальности.Есть ли что-нибудь подобное, когда данные далеки от аккуратного формата?До сих пор я копировал и вставлял данные в новый CSV.В то время как это было эффективно, я чувствовал, что это было в значительной степени неэффективно. Это лучший подход?

Помощь будет высоко ценится

Спасибо

РЕДАКТИРОВАТЬ

Поскольку я не могу показать данные, это лучшее, что я могу показать

Привет @ Пол
Итак, позвольте мне привести грубый пример

                 Jan   Feb  March   April
Income X    1      2      3           4
Income Y    2      4     4            6  
               Expenditure

                Jan    Feb    March    April                Another table here also
Expense   1        3         5           7
Expense   5       6          7           8

(Excel Bar chart)

1 Ответ

0 голосов
/ 08 октября 2018

Посмотрите на пакет readxl, возможно, вам нужен диапазон:

library(readxl)

df1 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "A1:D3")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8

df2 <- read_xlsx("C:\\Users\\...\\Desktop\\Book1.xlsx", range = "B6:E8")
# # A tibble: 2 x 4
#     Jan   Feb March April
#   <dbl> <dbl> <dbl> <dbl>
# 1     1     3     5     7
# 2     5     6     7     8
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...