ЦЕЛЬ:
Проверьте, имеют ли список файлов одинаковую кодировку перед импортом и rbind, если не один и тот же STOP, запустите
# files list & check encoding
FL_PATH <- list.files(path,pattern = "*.csv",full.name = T)
library(readr)
lapply(FL_PATH,guess_encoding)
# if there is "UTF-8" , STOP RUN , if "Shift_JIS" , RUN the next scripts below :
# import
library(rio)
DT <- rbindlist(lapply(FL_PATH ,import,sep=",",setclass = "data.table"))
# OVER 500 rows to run if the files are same encoding to rbind
DT[,"NEW_COL":="A"]
DT[,"NEW_COL_2":="B"]
.....
# result of --lapply(FL_PATH,guess_encoding)
> lapply(FL_PATH,guess_encoding)
[[1]]
# A tibble: 3 x 2
encoding confidence
<chr> <dbl>
1 Shift_JIS 0.8
2 GB18030 0.76
3 Big5 0.46
[[2]]
# A tibble: 3 x 2
encoding confidence
<chr> <dbl>
1 GB18030 0.82
2 UTF-8 0.8
3 Big5 0.44
- Задача 1 : Как получить доступ к переменным результата lapply readr
для обнаружения UTF-8 и STOP (необходимо пересмотреть кодировку вне R, если
UTF-8 существует?)
- Задача 2 : Как подключить большое количество сценариев обычной обработки
с "if & STOP run"?