У меня есть CSV с несколькими столбцами: Tweet, дата и т. Д. c. Пробелы в некоторых твитах приводят к появлению пустых строк и нежелательных усеченных строк.
Что работает: 1. Использование функции Notepad ++ «Операции со строками> Удаление пустых строк (содержащих пустые символы)» 2. Поиск и замена: \r
ни с чем.
Однако мне нужно сделать это для большого количества файлов, и Мне не удается найти регулярное выражение с помощью gsub () в R, которое будет выполнять функцию Notepadd ++ делает.
Обратите внимание, что замена ^[ \t]*$\r?\n
ничем, а затем \r
ничем работает в Notepad ++, но не в R, как предлагается здесь , но это не так работать с g (sub) в R.
Я пробовал следующий код:
tx <- readLines("tweets.csv")
subbed <-gsub(pattern = "^[ \\t]*$\\r?\\n", replace = "", x = tx)
subbed <-gsub(pattern = "\r", replace = "", x = subbed)
writeLines(subbed, "output.csv")
Это ввод:
Это желаемый результат: