Та же проблема здесь. Ниже приведен мой простой скрипт для преобразования всех файлов документов в dir 'docs /' в dir 'txts /' с использованием catdoc. Надеюсь, это кому-нибудь поможет:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))