У меня есть поток документов doc / docx, для которого мне нужно получить количество слов.
Пока что процедура состоит в том, чтобы вручную открыть документ и записать количество слов, предлагаемое самой MS Word,и я пытаюсь автоматизировать его, используя R.
Вот что я пробовал:
library(textreadr)
library(stringr)
myDocx = read_docx(myDocxFile)
docText = str_c(myDocx , collapse = " ")
wordCount = str_count(test, "\\s+") + 1
К сожалению, wordCount
НЕ то, что предлагает MS Word.
ДляНапример, я заметил, что MS Word считает числа в нумерованных списках, тогда как textreadr
даже не импортирует их.
Есть ли обходной путь? Я тоже не против попробовать что-то в Python, хотя у меня там меньше опыта.
Любая помощь будет принята с благодарностью.