Как получить базовую статистику читабельности с помощью Quanteda в R - PullRequest
0 голосов
/ 21 марта 2019

Для получения базовых сведений о нескольких сотнях PDF-файлов я хочу рассчитать показатель читабельности (Flesch Kincaid) всех этих PDF-файлов и представить их в электронной таблице.Мои навыки в R неадекватны, и я не могу найти решение самостоятельно.Я ищу очень простое решение.Это то, что у меня есть:

directory <- "my_folder"
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf),
                     readerControl = list(reader = readPDF, language = "dutch"))

, однако, при использовании quanteda, я получаю сообщение об ошибке: «предоставленные имена строк имеют неправильную длину» при использовании следующего

textstat_readability(corpus(my_corpus), measure = "Flesch.Kincaid")

Есть ли способ исправить это, или существует альтернатива?

1 Ответ

2 голосов
/ 21 марта 2019

Да - избегайте рабочего процесса tm .

directory <- "my_folder"
my_corpus <- readtext::readtext(paste0(directory, “/*.pdf”))
textstat_readability(corpus(my_corpus))

Но имейте в виду, что функция подсчета слогов, требуемая многими показателями читабельности, может работать неправильно на голландском языке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...