Как рассчитать количество слов в документе Word в Python? - PullRequest
2 голосов
/ 23 сентября 2011

Я пытаюсь получить количество слов в файлах типа .doc .docx .odt и .pdf. Это довольно просто для файлов .txt, но как мне подсчитать количество слов в указанных типах?

Я использую python django в Ubuntu и пытаюсь подсчитать количество слов в документах, когда пользователь загружает файл через систему.

Ответы [ 2 ]

4 голосов
/ 23 сентября 2011

Сначала вам нужно прочитать ваши .doc .docx .odt и .pdf .

Второе, количество слов ( <2,7 версия </a>).

0 голосов
/ 23 сентября 2011

Учитывая, что вы можете сделать это для файлов .txt, я предполагаю, что вы знаете, как считать слова, и что вам просто нужно знать, как читать файлы различных типов. Посмотрите на эти библиотеки:

PDF: pypdf

doc / docx: этот вопрос , python-docx

odt: примеры здесь

...