У меня есть набор CSV-файлов, где пропущенные значения (NA) сопровождаются переменным количеством пробелов по всему файлу.
Как лучше всего правильно интерпретировать эти значения как NA, а не как символы?
Ниже приведен пример данных, с которыми я имею дело и что я пробовал. Использование регулярных выражений в аргументах na.strings, похоже, не работает.
Обратите внимание, что пробелы всегда заканчиваются - если это поможет!
x = data.frame(id = 1:5, missing = c(NA, "NA ", "NA ", "NA ", "NA "),
stringsAsFactors = FALSE)
write.csv(x, 'NA_test.csv')
read.csv('NA_test.csv', na.strings = c("NA[[:space:]]+"), header = TRUE, stringsAsFactors = FALSE)