Я использовал Expressions для Mac, чтобы подтвердить работу Regex, но я не могу найти команду для извлечения информации из моего текстового файла.У меня есть 2500 текстовых файлов, и мне нужно вытащить дату каждого документа, чтобы заполнить набор данных.К вашему сведению, «дата» - первая переменная для извлечения, будут другие.Формат файлов различен и существует несколько дат.Меня интересует только первая дата каждого документа.Некоторые документы имеют новую строку с датой, другие начинают строку со слова «Дата» или «Дата».
Пример каждого текстового документа:
Bangor
dorset
LL56 43r
date: 10 july 2009
take notice: the blah blah blah text goes here and there's lots of it.
action:
Работающее регулярное выражение:
"\\d{1,2}\\s+(?:january|february|march|april|may|june|july|august|september|october|november|december)\\s+\\d{4}"
Текстовый документ отображается в среде R Studio как символьный вектор из одного элемента.Я хотел бы извлечь текст "как есть", что-то вроде ...
> strapply(NoFN, ("\\d{1,2}\\.?:january|february|march|april|may|june|july|august|september|october|november|december\\.\\d{4}")[[1]]
> [1] 10 july 2009
Очевидно, что на самом деле это не работает!
Большое спасибо!Ian