Я пытаюсь выполнить несколько тестов скорости на различных способах извлечения текста из файлов .doc, .docx и .pdf и наткнулся на textract
для Python, который выглядел многообещающе.Я установил textract
и все его зависимости от Kali Linux (Debian), я просто пытаюсь запустить простой тест:
import os
import sys
import textract
text = textract.process("/home/owain/Documents/Documents/file.doc")
Я назвал файл textract.py
, который, как я выяснил, нарушает работу: Преобразование .doc в чистый текст с использованием Python
ошибка, которую я получаю
kali@Kali:~/Scripts/TestScripts$ time python tttt.py
Traceback (most recent call last):
File "tttt.py", line 3, in <module>
import textract
File "/home/owain/Scripts/TestScripts/textract.py", line 4, in <module>
AttributeError: 'module' object has no attribute 'process'
Итак, я удалил textract
, удалилфайл textract.py и переустановил textract
.Это не сработало, так как я все еще получаю ту же ошибку выше, даже если этот файл больше не существует.Не знаете, куда идти, поэтому любая помощь будет высоко ценится!