Я столкнулся с проблемой с моим набором данных в R.
df <- read.csv("train.csv", header = TRUE, sep= ",", dec = ".", quote = "\"")
Проблема в том, что есть ошибка пунктуации, я вижу это, глядя на набор данных с помощью блокнота, именно эта строка:
,"15th All-Russian Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections", RCDL 2013","14 October 2013 through 17 October 2013",
Поскольку по ошибке перед «Цифровыми библиотеками» стоит двойная кавычка, следующая запятая (после «Технологий») будет считаться за пределами кавычек и поэтому приведет кразделение. Разделение вызывает проблемы, потому что «Цифровые коллекции», RCDL 2013, автоматически помещается в следующий столбец, а не остается в фразе в первом столбце.Эта ошибка может происходить чаще, поэтому я хотел бы найти способ сказать R, что он должен считать только те кавычки как ограничение строк символов, которые мгновенно следуют за запятой или имеют запятую перед («,»как это).
У вас есть идея, как это сделать?Или лучшее решение?