Я пытаюсь прочитать файл gz в R, но получил сообщение об ошибке: в строке 1 не было 9 элементов - PullRequest
1 голос
/ 19 апреля 2020

Вот мой код:

imdb <- read.table(gzfile("/imdb_dataset/title.basics.tsv.gz"), sep = " ")

Ошибка:

Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  : 
  line 1 did not have 9 elements

Файл, в котором вы можете увидеть, как разделяются столбцы и т. Д. c.

screenshot of tsv

На самом деле первая строка содержит 9 элементов, так в чем же проблема?

tt0000010   short   Exiting the Factory La sortie de l'usine Lumière à Lyon 0   1895    \N  1   Documentary,Short
tt0000011   short   Akrobatisches Potpourri Akrobatisches Potpourri 0   1895    \N  1   Documentary,Short
tt0000012   short   The Arrival of a Train  L'arrivée d'un train à La Ciotat    0   1896    \N  1   Action,Documentary,Short

Ответы [ 2 ]

1 голос
/ 19 апреля 2020

Я вижу 2 потенциальных проблемы с вашим импортом:

  1. В качестве разделителя вместо пробела ("\t") вы даете пробел (*1005*), но вы говорите, что это tsv
  2. Есть куча \N символов, которые могут скинуть его - попробуйте заменить эти
0 голосов
/ 19 апреля 2020

Похоже, что данные могут быть разделены табуляцией, а не пробелом. Попробуйте sep = "\t" в read.table. Также, вероятно, хотите добавить header=T

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...