У меня есть Centos 7 serveur с архивом q txt, который я хотел бы использовать в R.
Я использовал функцию / unzip и fread, но это набор данных> 4 Go (разархивированный)Я теряю большое количество данных.
Это мои данные:
pat_publn_id,publn_auth,publn_nr,publn_nr_original,publn_kind,appln_id,publ n_date,publn_lg,publn_first_grant,publn_claims
0,"XX","",""," ",0,9999-12-31," ","N",0
777,"EP","1943895","","A1",776,2008-07-16,"de","N",14
779,"EP","1943896","","A1",778,2008-07-16,"de","N",9
781,"EP","1943898","","A1",780,2008-07-16,"de","N",2
Я также пытался использовать 'read.table', как это:
data <- read.table("tls211_part01.zip", nrows=2, header=T, sep=",", encoding = "UTF-8", stringsAsFactors = FALSE, na.strings = NULL, strip.white = FALSE, fill = TRUE, blank.lines.skip = FALSE, skip = 1)
Я тогда получаю много ошибок:
Error in read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",", :
plus de colonnes que de noms de colonnes
De plus : Warning messages:
1: In readLines(file, skip) : la ligne 1 contient un caractère nul
2: In read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",", :
line 1 appears to contain embedded nulls
3: In scan(file, what = "", sep = sep, quote = quote, nlines = 1, quiet = TRUE, : caractère(s) 'nul' au milieu de l'entrée
4: In read.table("tls211_part01.zip", nrows = 2, header = T, sep = ",", : line 1 appears to contain embedded nulls