Как генерировать альтернативные образцы частей речи из корпуса, используя пакет udpipe для NLP в R - PullRequest
0 голосов
/ 16 февраля 2020

Я относительно новичок в НЛП и использую пакет R Udpipe для извлечения информации из корпуса. В Интернете есть пара связанных учебных пособий о том, как извлечь простые именные фразы (например, инновационный процесс), которые сработали для меня, но я не смог найти информацию о том, как изменить шаблон поиска (см. Код ниже), чтобы получить разные результаты, скажем, фразы глагол-существительное (например, поиск инвестиций).

## Using a sequence of POS tags (noun phrases / verb phrases)
x$phrase_tag <- as_phrasemachine(x$upos, type = "upos")
stats <- keywords_phrases(x = x$phrase_tag, term = tolower(x$token), 
                          pattern = "(A|N)*N(P+D*(A|N)*N)*",
                          is_regex = TRUE, detailed = FALSE)
stats <- subset(stats, ngram > 1 & freq > 3)
stats$key <- factor(stats$keyword, levels = rev(stats$keyword))
barchart(key ~ freq, data = head(stats, 20), col = "cadetblue", 
         main = "Keywords - simple noun phrases", xlab = "Frequency")

Мой главный вопрос: как мне изменить pattern в приведенном выше коде, чтобы генерировать различные части речевых комбинаций, чем простое существительное фразы. Я хотел бы также получить фразы существительное-глагол и фразы глагол-существительное, даже фразы существительное-глагол-существительное (или существительное-глагол-объект). Я был бы признателен за помощь в понимании того, как разработать необходимое регулярное выражение для этих и других шаблонов. Спасибо.

...