Использование data.table :: fread для столбца, содержащего одну двойную кавычку - PullRequest
0 голосов
/ 22 октября 2018

Я гуглял и читал посты по проблемам, похожим, но отличным от описанного ниже;извините, если это дубликат.

У меня есть файл csv с полем, которое может содержать, среди прочего, один экземпляр двойной кавычки (описания объектов иногда содержат длины, указанные в дюймах).

Когда я вызываю fread следующим образом

data_in <- data.table::fread(file_path,stringsAsFactors = FALSE)

, результирующий кадр данных содержит две последовательные двойные кавычки в тех случаях, когда в исходном файле была только одна (например, строка, которая появляется в необработанномcsv как

MI | WIRE 9 "BGD

появляется в кадре данных как

MI | WIRE 9" "BGD

).

Это символьное поле может также содержать запятые, точки с запятой, одинарные кавычки в любом количестве и многие другие символы, которые я не могу идентифицировать.

Это проблемапоскольку мне нужно, чтобы точная строка соответствовала значениям другого набора данных с merge (фактически, считываемый файл изначально был записан с r с fwrite).

Я предполагаю, что почти любая проблема ввода-выводаЯ борюсь с можноolved с readLines и небольшим количеством смазки для локтя, но мне очень нравится fread.Исходя из того, что я прочитал в Интернете, это похоже на проблемы, с которыми сталкивались другие, и поэтому я предполагаю, что некоторая подстройка параметров fread решит эту проблему.Есть идеи?

...