Ошибка в udp_tokenise_tag_parse (объект $ model, x, doc_id, tokenizer, tagger,: внешний указатель недействителен - PullRequest
0 голосов
/ 14 апреля 2020

Я пытаюсь воспроизвести код Biterm topi c моделирования для коротких текстов . Я выполнил код:

library(ctv)
pkgs <- available.views()
names(pkgs) <- sapply(pkgs, FUN=function(x) x$name)
pkgs <- c(pkgs$NaturalLanguageProcessing$packagelist$name, pkgs$MachineLearning$packagelist$name)

## Get package descriptions of these packages
library(tools)
x <- CRAN_package_db()
x <- x[, c("Package", "Title", "Description")]
x$doc_id <- x$Package
x$text   <- tolower(paste(x$Title, x$Description, sep = "\n"))
x$text   <- gsub("'", "", x$text)
x$text   <- gsub("<.+>", "", x$text)
x        <- subset(x, Package %in% pkgs)

library(udpipe)
library(data.table)
anno    <- udpipe(x, "english", trace = 10)

Но при последней инструкции я получил ошибку:

Error in udp_tokenise_tag_parse(object$model, x, doc_id, tokenizer, tagger,  :   external pointer is not valid

EDIT . Я исправил эту проблему. Проблема была в слишком вложенном каталоге с длинными именами и некоторыми акцентами. Для решения этой проблемы было достаточно создать новую папку на рабочем столе и принять ее в качестве рабочего каталога.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...