Я пытаюсь написать функцию Python, которая, учитывая путь к файлу документа, возвращает количество слов в этом документе. Это довольно легко сделать с файлами .txt, и есть инструменты, которые позволяют мне взламывать поддержку нескольких более сложных форматов документов вместе, но я хочу действительно всеобъемлющее решение.
Если посмотреть на интерфейс сценариев py-uno в OpenOffice.org и список поддерживаемых форматов, то кажется, что было бы идеально загрузить документы в автономном режиме OOo и вызвать функцию подсчета слов. Однако я не могу найти никаких учебных пособий или примеров кода py-uno, выходящих за рамки базового процесса создания документов, и даже фрагменты кода, которые я обнаружил, устарели на полвека и больше не работают.
Независимо от того, используя OOo и Uno или нет, как я могу получить надежное количество слов для документов различных форматов?