Получение количества слов файлов doc / docx в R - PullRequest
2 голосов
/ 31 октября 2019

У меня есть поток документов doc / docx, для которого мне нужно получить количество слов.

Пока что процедура состоит в том, чтобы вручную открыть документ и записать количество слов, предлагаемое самой MS Word,и я пытаюсь автоматизировать его, используя R.

Вот что я пробовал:

library(textreadr)
library(stringr)
myDocx = read_docx(myDocxFile)
docText = str_c(myDocx , collapse = " ")
wordCount = str_count(test, "\\s+") + 1

К сожалению, wordCount НЕ то, что предлагает MS Word.

ДляНапример, я заметил, что MS Word считает числа в нумерованных списках, тогда как textreadr даже не импортирует их.

Есть ли обходной путь? Я тоже не против попробовать что-то в Python, хотя у меня там меньше опыта.

Любая помощь будет принята с благодарностью.

1 Ответ

0 голосов
/ 31 октября 2019

Это можно сделать с помощью пакета tidytext в R.

library(textreadr)
library(tidytext)
library(dplyr)

#read in word file without password protection
x <- read_docx(myDocxFile)
#convert string to dataframe
text_df <-tibble(line = 1:length(x),text = x)
#tokenize dataframe to isolate separate words
words_df <- text_df %>%
  unnest_tokens(word,text)
#calculate number of words in passage
word_count <- nrow(words_df)
...