Textract - AttributeError: объект 'module' не имеет атрибута 'process' - указывает на несуществующий файл - PullRequest
0 голосов
/ 21 января 2019

Я пытаюсь выполнить несколько тестов скорости на различных способах извлечения текста из файлов .doc, .docx и .pdf и наткнулся на textract для Python, который выглядел многообещающе.Я установил textract и все его зависимости от Kali Linux (Debian), я просто пытаюсь запустить простой тест:

import os
import sys
import textract 

text = textract.process("/home/owain/Documents/Documents/file.doc")

Я назвал файл textract.py, который, как я выяснил, нарушает работу: Преобразование .doc в чистый текст с использованием Python

ошибка, которую я получаю

kali@Kali:~/Scripts/TestScripts$ time python tttt.py
Traceback (most recent call last):
  File "tttt.py", line 3, in <module>
    import textract   
  File "/home/owain/Scripts/TestScripts/textract.py", line 4, in <module>
AttributeError: 'module' object has no attribute 'process'

Итак, я удалил textract, удалилфайл textract.py и переустановил textract.Это не сработало, так как я все еще получаю ту же ошибку выше, даже если этот файл больше не существует.Не знаете, куда идти, поэтому любая помощь будет высоко ценится!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...