Как токенизировать по пункту с гутенбергом и удпайпом - PullRequest
0 голосов
/ 08 ноября 2018

Я начал использовать udpipe и хотя он может индексировать по абзацам, когда я загружаю текст из gutenbergr, все добавляется в paragrpah 1. Как я могу заставить его правильно индексировать абзацы?

Мои попытки

library(udpipe)
library(gutenbergr)

ud_model <- udpipe_download_model(language = "english")
ud_model <- udpipe_load_model(ud_model$file_model)
txt<-gutenberg_download(152)

txt<-as.character(txt)
x <- udpipe_annotate(ud_model, txt,doc_id=seq_along(txt))
x <- as.data.frame(x)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...