Попытка разобрать текстовый документ через tika с использованием библиотеки Tika- Python (https://github.com/chrismattmann/tika-python) в python2 .7 (я знаю, что это устарело, но работают только несколько других зависимостей в python2). Но для немногих более крупных документов я не могу получить проанализированные данные. Я использую приведенный ниже фрагмент кода для анализа документа.
headers = {
"X-Tika-OCRLanguage": "eng",
'timeout': 300,
'pool_timeout': 300,
"X-Tika-OCRTimeout": 300
}
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers':headers})
Этот фрагмент кода выдает следующее сообщение об ошибке:
ReadTimeout(ReadTimeoutError("HTTPConnectionPool(host='localhost', port=9998): Read timed out. (read timeout=60)",),)
Пробовал различные варианты запроса, чтобы увеличить время ожидания чтения, но не получилось. Кто-нибудь может помочь, пожалуйста?