Чтение XML-файлов в R приводит к сбою в циклах - PullRequest
0 голосов
/ 25 марта 2019

У меня есть код, который перебирает список файлов XML и обрабатывает их. Когда я выполняю код для одного XML, результат является ожидаемым. Но когда я запускаю цикл, в разных файлах появляются неожиданные ошибки. Файл ошибки изменяется на каждой итерации, поэтому для поиска ошибки нет шаблона.

Ex. один файл:

p_xml <- function(file)
{
   tmp<-tryCatch(
  {
    (read_xml(path_XML))
  },error=function(e)
  {
    return(NA)
   })

 if(is.na(tmp))
   {
    file <- read_xml(path_XML, encoding = "ISO-8859-1")
  }else{
   file <- tmp
 }
 id <- as.numeric(xml_attr(file, "id"))
 year_id <- as.numeric(xml_attr(file, "machine_year"))

....

return(data)

}

Этот код возвращает data.table правильным способом. Но если я выполню эту функцию внутри цикла:

global_dt<-data.table()
for(j in 1:length(file_names))
  {
    current_file <- file_names[j]
    f <- p_xml(file.path(current_dir,current_file))
    global_dt<-rbind(global_dt,f)
  }

Я получаю такую ​​ошибку:

  • Ошибка в файле doc_parse_file (con, encoding = encoding, as_html = as_html, options = options): не удалось проанализировать /path/file.xml *

Дело в том, что если я затем выполню один код с ошибочным файлом, он вернет то, что я ожидал. Я использую библиотеку xml2 для чтения файлов

1 Ответ

0 голосов
/ 25 марта 2019

попробуйте этот рабочий процесс

library(data.table)
#store the result of each run of the function into a list
l <- lapply( list_files, p_xml )
#rowbind the list together into one data.table
global_dt <- data.table::rbindlist( l ) 
...