Я выполняю задачу интеллектуального анализа текста в R.
Задачи:
1) подсчет предложений
2) определение и сохранение кавычек в векторе
Проблемы:
Ложные полные остановки, такие как "..." и точки в заголовках, такие как "Мистер"надо иметь дело с.
В данных основного текста обязательно есть кавычки, и в них будет "...".Я думал извлечь эти цитаты из основного текста и сохранить их в векторе.(есть некоторые манипуляции с ними тоже.)
ВАЖНО ПРИМЕЧАНИЕ: Мои текстовые данные находятся в документе Word.Я использую readtext («путь к файлу .docx») для загрузки в R. Когда я просматриваю текст, кавычки просто «но не \» противоречат воспроизводимому тексту.
path <- "C:/Users/.../"
a <- readtext(paste(path, "Text.docx", sep = ""))
title <- a$doc_id
text <- a$text
Воспроизводимый текст
text <- "Mr. and Mrs. Keyboard have two children. Keyboard Jr. and Miss. Keyboard. ...
However, Miss. Keyboard likes being called Miss. K [Miss. Keyboard is a bit of a princess ...]
\"Mom how are you o.k. with being called Mrs. Keyboard? I'll never get it...\". "
# splitting by "."
unlist(strsplit(text, "\\."))
Проблема в том, что он разбивается по ложным точкам остановки Решение, которое я пробовал:
# getting rid of . in titles
vec <- c("Mr.", "Mrs.", "Ms.", "Miss.", "Dr.", "Jr.")
vec.rep <- c("Mr", "Mrs", "Ms", "Miss", "Dr", "Jr")
library(gsubfn)
# replacing . in titles
gsubfn("\\S+", setNames(as.list(vec.rep), vec), text)
Проблема в том, что этоне заменяет [мисс.[Miss
Чтобы определить цитаты:
stri_extract_all_regex(text, '"\\S+"')
, но это тоже не работает.(Он работает с \ "с кодом ниже)
stri_extract_all_regex("some text \"quote\" some other text", '"\\S+"')
Точный ожидаемый вектор:
sentences <- c("Mr and Mrs Keyboard have two children. ", "Keyboard Jr and Miss Keyboard.", "However, Miss Keyboard likes being called Miss K [Miss Keyboard is a bit of a princess ...]", ""Mom how are you ok with being called Mrs Keyboard? I'll never get it...""
Я хотел разделить предложения (чтобы я мог посчитать, сколько предложений в каждомпараграф). И кавычки тоже разделены.
quotes <- ""Mom how are you ok with being called Mrs Keyboard? I'll never get it...""