Я пытаюсь переименовать файлы .txt в каталог, загруженный с Nexis Advance UK. Будучи незнакомым с кодированием, я попытался изменить код LexisNexisTools * в RStudio.
Что я сделал, например, изменил term.v <- content_v[grep("^Terms: |^Begriffe: ", content_v)]
на term.v <- content_v[grep("The Guardian(London)", fixed = T, content_v)]
и изменил функцию переименования, чтобы она вставляла только term.v
. Однако я пытаюсь сохранить исходную функцию OR
, чтобы код циклически проходил через несколько строк, например "Express Online" или "The Independent (United Kingdom)", а затем вставлял найденную строку в файл. переименовать функцию.
Вот то, что я пробовал до сих пор:
1 - использовать регулярные выражения (из того, что я мог собрать в Интернете по регулярным выражениям с пробелами в строках) с fixed = F
, например "^The/sGuardian(London)$|^Express/sOnline$"
2- Я попытался использовать вектор для «размещения» различных шаблонов, а затем вставить вектор в команду grep
toMatch.v <- c("Express Online", "The Times (London)", "The Independent (United Kingdom)"
term.v<- content_v[grep(paste(toMatch, collapse="|"), content_v)]
Единственный раз, когда код (как измененный) ) работает, когда fixed = T
и строка набирается так, как это найдено в файлах .txt.
Что я делаю не так? Большое спасибо, и я прошу прощения, если терминология не точна.
Дополнительные сведения:
Первоначально код опирается на набор ключевых слов для поиска поискового запроса и вставки его в имя файла:
content_v <- readLines(files[i], encoding = encoding, n = 50)
term.v <- content_v[grep("^Terms: |^Begriffe: ", content_v)]
# erase everything in the line exept the actual range
term.v <- gsub("^Terms: |^Begriffe: ", "", term.v)
# split term into elemets seprated by and or OR
term.v <- unlist(strsplit(term.v, split = " AND | and | OR ", fixed = FALSE))
Я изменился это так, что grep
начинается со строки, которую я хочу добавить к имени файла, как объяснено выше. Я также отключил строку gsub
и изменил аргумент split
на "/n"
, поскольку строка в моих текстовых файлах отделяется разрывом строки. Вот пример примера файла .txt.