Распакуйте большие текстовые файлы в R - PullRequest
0 голосов
/ 10 октября 2019

У меня есть Centos 7 serveur с архивом q txt, который я хотел бы использовать в R.

Я использовал функцию / unzip и fread, но это набор данных> 4 Go (разархивированный)Я теряю большое количество данных.

Это мои данные:

 pat_publn_id,publn_auth,publn_nr,publn_nr_original,publn_kind,appln_id,publ n_date,publn_lg,publn_first_grant,publn_claims
  0,"XX","","","  ",0,9999-12-31,"  ","N",0
 777,"EP","1943895","","A1",776,2008-07-16,"de","N",14
 779,"EP","1943896","","A1",778,2008-07-16,"de","N",9
 781,"EP","1943898","","A1",780,2008-07-16,"de","N",2

Я также пытался использовать 'read.table', как это:

 data <- read.table("tls211_part01.zip", nrows=2, header=T, sep=",", encoding = "UTF-8", stringsAsFactors = FALSE, na.strings = NULL, strip.white = FALSE, fill = TRUE, blank.lines.skip = FALSE, skip = 1)

Я тогда получаю много ошибок:

       Error in read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",",  : 
         plus de colonnes que de noms de colonnes
     De plus : Warning messages:
  1: In readLines(file, skip) : la ligne 1 contient un caractère nul
  2: In read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",",  :
   line 1 appears to contain embedded nulls
  3: In scan(file, what = "", sep = sep, quote = quote, nlines = 1, quiet = TRUE,  : caractère(s) 'nul' au milieu de l'entrée
 4: In read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",",  : line 1 appears to contain embedded nulls
...