Я относительно новичок в НЛП и использую пакет R Udpipe для извлечения информации из корпуса. В Интернете есть пара связанных учебных пособий о том, как извлечь простые именные фразы (например, инновационный процесс), которые сработали для меня, но я не смог найти информацию о том, как изменить шаблон поиска (см. Код ниже), чтобы получить разные результаты, скажем, фразы глагол-существительное (например, поиск инвестиций).
## Using a sequence of POS tags (noun phrases / verb phrases)
x$phrase_tag <- as_phrasemachine(x$upos, type = "upos")
stats <- keywords_phrases(x = x$phrase_tag, term = tolower(x$token),
pattern = "(A|N)*N(P+D*(A|N)*N)*",
is_regex = TRUE, detailed = FALSE)
stats <- subset(stats, ngram > 1 & freq > 3)
stats$key <- factor(stats$keyword, levels = rev(stats$keyword))
barchart(key ~ freq, data = head(stats, 20), col = "cadetblue",
main = "Keywords - simple noun phrases", xlab = "Frequency")
Мой главный вопрос: как мне изменить pattern
в приведенном выше коде, чтобы генерировать различные части речевых комбинаций, чем простое существительное фразы. Я хотел бы также получить фразы существительное-глагол и фразы глагол-существительное, даже фразы существительное-глагол-существительное (или существительное-глагол-объект). Я был бы признателен за помощь в понимании того, как разработать необходимое регулярное выражение для этих и других шаблонов. Спасибо.