Я смотрю на набор данных с 35383 твитами, где мне нужно выбрать только те, которые содержат дату, например:
[2020-03-05] Power Plant Mines BTC 5.5/day
[2020-03-30] Bitcoin Is Making a Gradual Fall, May
[2020-04-04] Github Freezes Bitcoin Code in Arctic Ice
А не как;
Subject
POST FORMAT: YYYY-MM-DD SITE - HEADLINE « 1 2 All »
etc.
et c.
Я пробовал это, но безуспешно:
library(tidyverse)
data_clean <- data_clean %>%
filter(!data_clean[,1] == str_detect(data_clean[,1], pattern = "^/[[0-9]{4}.{1}[0-9]{2}.{1}[0-9]{2}/].{*}"))
Я думаю, что это может быть [] в тексте, который создает проблемы?
Я добавил фотографию вывода, где первая часть с числами - dput (). dput () дает очень длинный и грязный вывод, поэтому ниже у меня есть 10 первых строк данных.
Фотография данных