Я хотел бы импортировать этот набор данных в df
. Я пытаюсь преобразовать этот файл поддержки SAS в код R, используя read.fwf
подход
Определите имя и длину переменных, как описано в файле SAS
vars <- c('SEQN', 'HYK1A', 'HYK1B', 'HYK2A', 'HYK2B', 'HYK3CG', 'HYK3DG', 'HYK6SG', 'HYK8SG', 'HYK3CH', 'HYK3DH', 'HYK6SH', 'HYK8SH', 'HYK3CI', 'HYK3DI', 'HYK6SI', 'HYK8SI', 'HYK3CJ', 'HYK3DJ', 'HYK6SJ', 'HYK8SJ', 'HYK3CK', 'HYK3DK', 'HYK6SK', 'HYK8SK', 'HYK3CL', 'HYK3DL', 'HYK6SL', 'HYK8SL', 'HYK3CM', 'HYK3DM', 'HYK6SM', 'HYK8SM', 'HYK3CN', 'HYK3DN', 'HYK6SN', 'HYK8SN', 'HYK3CO', 'HYK3DO', 'HYK6SO', 'HYK8SO', 'HYK3CP', 'HYK3DP', 'HYK6SP', 'HYK8SP', 'HYK9DG', 'HYK9EG', 'HYK9FG', 'HYK11AG', 'HYK12SG', 'HYK9DH', 'HYK9EH', 'HYK9FH', 'HYK11AH', 'HYK12SH', 'HYK9DI', 'HYK9EI', 'HYK9FI', 'HYK11AI', 'HYK12SI', 'HYK9DJ', 'HYK9EJ', 'HYK9FJ', 'HYK11AJ', 'HYK12SJ', 'HYK9DK', 'HYK9EK', 'HYK9FK', 'HYK11AK', 'HYK12SK', 'HYK9DL', 'HYK9EL', 'HYK9FL', 'HYK11AL', 'HYK12SL', 'HYK9DM', 'HYK9EM', 'HYK9FM', 'HYK11AM', 'HYK12SM', 'HYK9DN', 'HYK9EN', 'HYK9FN', 'HYK11AN', 'HYK12SN', 'HYK9DO', 'HYK9EO', 'HYK9FO', 'HYK11AO', 'HYK12SO')
len <-c(7, 3, 3, 3, 3, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 4, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4, 4, 4, 4, 6, 4)
получение DF из сети
df <- read.fwf(".../you.dat",
widths = len, header = FALSE, n=10, stringsAsFactors = TRUE)
names(df) <- vars
Визуализация DF
head(df)
Честно говоря, я не доверяю этому DF. Я получаю слишком много NAs
Обновление после @ 42- светящегося ответа. Быстрее
Я легко улучшил свой код, используя библиотеку SAScii
, и она работает.
Тем не менее, я нашел что-то быстрее с меньшими системными затратами здесь .
library(readr)
library(data.table)
#Parse SAS file
vars <- parse.SAScii(".../you.sas")
setDT(vars) #convert to data.table
#read to data frame
huge.df <- read_fwf(".../you.dat",
fwf_widths(dput(vars[,width]),
col_names=(dput(vars[,varname]))),
progress = interactive()
)