Файл с разделителями табуляции с разным количеством столбцов - R - PullRequest
0 голосов
/ 08 марта 2019

Я получил большой CSV-файл с разделителями табуляции (10 000 000 строк).Предполагается, что он содержит 11 различных столбцов с лабораторными значениями (номер теста, дата теста, тип теста, единица теста, значение, дополнительный текст и т. Д.)

Использование readr::read_tsv приводит к ошибке:

read_tsv("file_name.csv")

Ошибка:

Warning: 90486 parsing failures.
row col   expected    actual    file
9213391  -- 11 columns 8 columns 'file_name.csv'
9213392  -- 11 columns 4 columns 'file_name.csv'
9217859  -- 11 columns 1 columns 'file_name.csv'
9217860  -- 11 columns 4 columns 'file_name.csv'

Найдена пара решений для большего количества столбцов, чем ожидалось, но не для этой проблемы.

Есть идеи?

1 Ответ

0 голосов
/ 08 марта 2019

Это предупреждения, а не ошибки. read_tsv все еще дает результат, и если этот результат DF, то attr(DF, "problems") описывает проблемные строки.

Например, чтобы удалить проблемные строки:

DF <- read_tsv("file_name.tsv")
problems <- attr(DF, "problems")
if (!is.null(problems)) DF <- DF[-problems$row, ]
...