У меня есть несколько строк текста (пример ниже фактического текста - целая книга). Как вы можете видеть, каждая строка была разбита на точку или знак вопроса.
[1]"I am a Mr."
[2]"asking for help."
[3]"Can you help?"
[4]"Thank you ms."
[5]"or mr."
Я хочу свернуть, когда строка заканчивается аббревиатурой, например, mr., Mrs. поэтому конечным результатом будет желаемый результат ниже.
[1]"I am a Mr. asking for help."
[2]"Can you help?"
[3]"Thank you ms. or mr."
Я уже создал вектор (называемый abbr), содержащий все мои сокращения в следующем формате:
> abbr
[1] "Mr|Mrs|Ms|Dr|Ave|Blvd|Rd|Mt|Capt|Maj"
, но я могу не понять, как использовать его в функции вставки, чтобы свернуть. Я также пытался использовать gsub (не работал), чтобы заменить \ n следующую аббревиатуру на точку с таким пробелом:
lines<-gsub('(?<=abbr\\.\\n)(?=[A-Z])', ' ', lines, perl=FALSE)