Я пытаюсь воспроизвести код Biterm topi c моделирования для коротких текстов . Я выполнил код:
library(ctv)
pkgs <- available.views()
names(pkgs) <- sapply(pkgs, FUN=function(x) x$name)
pkgs <- c(pkgs$NaturalLanguageProcessing$packagelist$name, pkgs$MachineLearning$packagelist$name)
## Get package descriptions of these packages
library(tools)
x <- CRAN_package_db()
x <- x[, c("Package", "Title", "Description")]
x$doc_id <- x$Package
x$text <- tolower(paste(x$Title, x$Description, sep = "\n"))
x$text <- gsub("'", "", x$text)
x$text <- gsub("<.+>", "", x$text)
x <- subset(x, Package %in% pkgs)
library(udpipe)
library(data.table)
anno <- udpipe(x, "english", trace = 10)
Но при последней инструкции я получил ошибку:
Error in udp_tokenise_tag_parse(object$model, x, doc_id, tokenizer, tagger, : external pointer is not valid
EDIT . Я исправил эту проблему. Проблема была в слишком вложенном каталоге с длинными именами и некоторыми акцентами. Для решения этой проблемы было достаточно создать новую папку на рабочем столе и принять ее в качестве рабочего каталога.