Я использую функцию keyword_rake из пакета udpipe (для R) для извлечения ключевых слов из пакета документов.
udmodel_en <- udpipe_load_model(file = dl$file_model)
x <- udpipe_annotate(udmodel_en, x = data$text)
x <- as.data.frame(x)
keywords <- keywords_rake(x = x, term = "lemma", group = "doc_id",
relevant = x$xpos %in% c("NN", "JJ"), ngram_max = 2)
, где данные выглядят следующим образом
Text
"cats are nice but dogs are better..."
"I really like dogs..."
"red flowers are pretty, especially roses..."
"once I saw a blue whale ..."
....
( каждая строка является отдельным документом)
Однако выходные данные не включают происхождение ключевых слов и предоставляют список ключевых слов для всех документов
как я могу связать эти ключевые слова с соответствующими документы они были взяты? (Т.е. есть список ключевых слов для каждого из документов)
примерно так:
keywords
doc1 dog, cat, blue whale
doc2 dog
doc3 red flower, tower, Donald Trump