Как сделать токенизацию по n-грамме для pdf файла в R - PullRequest
1 голос
/ 19 октября 2019

Я хочу маркировать PDF-документ с помощью ngrams в R. Я пытался следовать инструкциям здесь на https://www.tidytextmining.com/ngrams.html,, но застрял с функцией unnest_tokens().

library(tm)
library(dplyr)
library(tidytext)
library(tidyverse)


filedoc <- "Document2019.pdf"
cname <- file.path(filedoc)
docs <- Corpus(URISource(cname), readerControl=list(reader=readPDF, language = "en")) 

docs_bigrams <- docs %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2)

Я продолжаюполучая это сообщение об ошибке: Error in UseMethod("unnest_tokens_") : no applicable method for 'unnest_tokens_' applied to an object of class "c('VCorpus', 'Corpus')"

Что мне нужно сделать перед запуском функции unnest_tokens? Спасибо.

1 Ответ

0 голосов
/ 20 октября 2019

Я согласен с предложением @ phiver, использую функцию tidy и перепечатываю здесь ответ, чтобы этот поток можно было закрыть / ответить.

"используйте функцию tidy перед unnest_tokens. Tidytext использует tidyфункция для преобразования из тм объектов в тиблы. "

Спасибо!

...