Сотрите указанную c пустую ячейку, которая сдвигает все имена строк - PullRequest
0 голосов
/ 18 февраля 2020

У меня странная ошибка в некоторых фреймах данных, над которыми я работаю, смещение всех моих строк на одну ячейку, чтобы они больше не соответствовали моим данным:

Вместо этого:

> head(xaa.small)
                     AGCATTCGAAACATCGAGGCTAACATCCAGTACGCAAGTGGCC AGCATTCGAAACATCGCCAGTTCAATCCATCTTCACAGTGGCC
hg19_ENSG00000000003                                           0                                           0
hg19_ENSG00000000419                                           0                                           0
hg19_ENSG00000000457                                           0                                           0

Это выглядит так:

> head (xab.small)
                     AGCATTCGAAACATCGAGGCTAACATCCAGTACGCAAGTGGCC AGCATTCGAAACATCGCCAGTTCAATCCATCTTCACAGTGGCC
                                                               0                                           0
hg19_ENSG00000103160                                           0                                           0
hg19_ENSG00000103168                                           0                                           0

На некоторых кадрах данных появляется пустое место.

Как я могу стереть его и "восстановить" мой кадры в R? Или импортировать это более эффективно? fill = True при импорте кадра данных работает, но блокирует меня для дальнейшего анализа, который я должен сделать.

Данные поступают из огромного файла TSV, который был разрезан на несколько частей. Возможно, в процессе вырезания произошла ошибка (была использована функция split, чтобы разрезать исходный файл tsv в несколько файлов размером 200 Мб)

1 Ответ

0 голосов
/ 19 февраля 2020

Я обнаружил ошибку:

Когда исходный файл был разрезан на несколько частей, он был разбит на байты, а не на строки. Таким образом, он иногда обрезал последний столбец последней строки или что-то в этом роде, создавая неполные строки или создавая пустое пространство ...

Я исправил ошибку, просто используя split -l (number of lines) file вместо split -b (number of bytes)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...