Вы хотите сохранить буквенно-цифровые символы вместе с некоторыми пунктуациями, такими как @ , ! и т. Д.
Если ваш столбец содержит в основном<unicode>
, тогда это должно сделать:
Для фрейма данных df
со столбцом text
, используя grep
:
new_str <- grep(df_str$text, pattern = "<*>", value= TRUE , invert = TRUE )
new_str[new_str != ""]
Чтобы вернуть его в исходный столбец text
.Вы можете просто работать с нужными индексами и устанавливать другие значения на NA
:
idx <- grep(df$text, pattern = "<*>", invert = TRUE )
df$text[-idx] <- NA
. Для очистки твита вы можете использовать функцию gsub
.см. этот пост чистящий твит в R