Извлечение даты из текста с использованием R - PullRequest
0 голосов
/ 28 мая 2018

Мой фрейм данных выглядит как

df <- setNames(data.frame(c("2 June 2004, 5 words, ()(","profit, Insight, 2 May 2004, 188 words,  reports, by ()("), stringsAsFactors = F), "split")

Я хочу разделить столбец для даты и слов. Пока я нашел " Извлечение текста даты из строки "

lapply(df2, function(x) gsub(".*(\\d{2} \\w{3} \\d{4}).*", "\\1", x))

Но это не работает с моим примером, спасибо за помощь, как всегда

1 Ответ

0 голосов
/ 28 мая 2018

Поскольку существует только один столбец, мы можем напрямую использовать gsub/sub после извлечения столбца.В шаблоне дни могут быть 1 или более, аналогично, слова имеют 3 («май») или 4 символа («июнь»), поэтому мы должны внести эти изменения

sub(".*\\b(\\d{1,} \\w{3,4} \\d{4}).*", "\\1", df$split)
#[1] "2 June 2004" "2 May 2004" 
...