Question

Для получения базовых сведений о нескольких сотнях PDF-файлов я хочу рассчитать показатель читабельности (Flesch Kincaid) всех этих PDF-файлов и представить их в электронной таблице.Мои навыки в R неадекватны, и я не могу найти решение самостоятельно.Я ищу очень простое решение.Это то, что у меня есть:

directory <- "my_folder"
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf),
                     readerControl = list(reader = readPDF, language = "dutch"))

, однако, при использовании quanteda, я получаю сообщение об ошибке: «предоставленные имена строк имеют неправильную длину» при использовании следующего

textstat_readability(corpus(my_corpus), measure = "Flesch.Kincaid")

Есть ли способ исправить это, или существует альтернатива?

Ken Benoit · Answer 1 · 21 марта 2019

Да - избегайте рабочего процесса tm .

directory <- "my_folder"
my_corpus <- readtext::readtext(paste0(directory, “/*.pdf”))
textstat_readability(corpus(my_corpus))

Но имейте в виду, что функция подсчета слогов, требуемая многими показателями читабельности, может работать неправильно на голландском языке.

Как получить базовую статистику читабельности с помощью Quanteda в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить базовую статистику читабельности с помощью Quanteda в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы