У меня есть CSV-файл, содержащий ~ 1500 строк, которые я хочу прочитать в R. Файл содержит текст, который, в свою очередь, содержит новые абзацы (<p>
). read.csv()
, кажется, интерпретирует их как разные строки, поэтому я получаю> 5000 строк в моем фрейме данных. Мой вопрос: как заставить R игнорировать знаки <p>
и в идеале все специальные символы, которые я еще не заметил?
Справочная информация: текст извлекается из исходного кода веб-сайта, поэтому встречается много символов программирования.
Вот пример строки:
text_col = c("["<p>Welcome to Y. The xyz.</p>" "<p>We are a small team based in Z with a diverse experience set that enables us to think out of the box.</p>"])
Я пытался использовать read.delim()
, но, похоже, это не сработало:
read.delim(file = "ABC.csv", delim = "<p>",escape_double=FALSE, escape_backslash=TRUE, quote="'")