Библиотека Tika- Python выдает ошибку тайм-аута чтения для документа большого слова - PullRequest
0 голосов
/ 29 марта 2020

Попытка разобрать текстовый документ через tika с использованием библиотеки Tika- Python (https://github.com/chrismattmann/tika-python) в python2 .7 (я знаю, что это устарело, но работают только несколько других зависимостей в python2). Но для немногих более крупных документов я не могу получить проанализированные данные. Я использую приведенный ниже фрагмент кода для анализа документа.

headers = {
                "X-Tika-OCRLanguage": "eng",
                'timeout': 300,
                'pool_timeout':  300,
                "X-Tika-OCRTimeout": 300
            }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers':headers})

Этот фрагмент кода выдает следующее сообщение об ошибке:

ReadTimeout(ReadTimeoutError("HTTPConnectionPool(host='localhost', port=9998): Read timed out. (read timeout=60)",),)

Пробовал различные варианты запроса, чтобы увеличить время ожидания чтения, но не получилось. Кто-нибудь может помочь, пожалуйста?

1 Ответ

1 голос
/ 31 марта 2020

Я обнаружил проблему благодаря владельцу репозитория @chrismattmann, который указал, что параметр timeout должен быть вне параметра заголовка. Приведенный выше код должен выглядеть следующим образом:

headers = {
            "X-Tika-OCRLanguage": "eng",
            "X-Tika-OCRTimeout": "300"
        }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers': headers, 'timeout': 300})
...