Я пытался прочитать в файле csv с разделителями трубы, содержащем 96 переменных, о некоторых добровольных данных о качестве воды. Случайно в файле есть одинарные и двойные кавычки, а также точки с запятой, тире, косые черты и, вероятно, другие специальные символы
Имя: Джонатан "Джо" Смит; Джерри; Эмили; et c.
Из вывода нескольких переменных (например, IsNewVolunteer
) кажется, что r имеет проблемы с чтением данных. IsNewVolunteer
всегда должно быть Y
или N
, но появляются цифры, и когда я запрашиваю эти строки, кажется, что данные сдвигаются. Переменные, которые явно не являются именами, находятся в столбцах Firstname
и lastname
.

Исходный формат данных делает его немного трудным для просмотра и устранения неполадок, особенно из-за дополнительных переменных. Я бы нашел способ их удалить, но цель работы с R
состоит в том, чтобы предоставить код, который сможет работать с часто обновляемым набором данных.

Я пробовал
read.table("dnrvisualstream.csv",sep="|",stringsAsFactors = FALSE,quote="")
Но это приводит к следующей ошибке:
Ошибка сканирования (файл = файл, что = что, сеп = sep, quote = quote, de c = de c,: в строке 132 не было 94 элементов
Однако в строке 132 нет ничего необычного, что я заметил У меня больше успехов с
read.csv("dnrvisualstream.csv",sep="|",stringsAsFactors = FALSE,quote="")
, но это все равно вызывает смещения и ошибки, как обсуждалось выше. Есть ли что-то, что я делаю неправильно? Любая информация будет полезна.