Чтение CSV-файла с абзацами и escape-символами в тексте - PullRequest
0 голосов
/ 09 марта 2020

У меня есть CSV-файл, содержащий ~ 1500 строк, которые я хочу прочитать в R. Файл содержит текст, который, в свою очередь, содержит новые абзацы (<p>). read.csv(), кажется, интерпретирует их как разные строки, поэтому я получаю> 5000 строк в моем фрейме данных. Мой вопрос: как заставить R игнорировать знаки <p> и в идеале все специальные символы, которые я еще не заметил?

Справочная информация: текст извлекается из исходного кода веб-сайта, поэтому встречается много символов программирования.

Вот пример строки:

text_col = c("["<p>Welcome to Y. The xyz.</p>" "<p>We are a small team based in Z with a diverse experience set that enables us to think out of the box.</p>"]) 

Я пытался использовать read.delim(), но, похоже, это не сработало:

read.delim(file = "ABC.csv", delim = "<p>",escape_double=FALSE, escape_backslash=TRUE, quote="'")
...