Единого решения для извлечения текста из файлов разных типов не существует. Попробуйте использовать пакет fitz для извлечения текста из pdf:
def extractTextfrompdf(resume):
try:
temp = fitz.open("pdf", resume)
pageCount = temp.pageCount
resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
return resumeText, pageCount
except (TypeError,ValueError):
logger.exception("Text extraction from pdf failed.")
pass
Вы можете использовать python-docx для извлечения текста из файлов docx. Логика должна быть очень похожа.