Как и выше, я извлекаю текст из нескольких документов, используя tika на python, но на одном конкретном pdf он извлекает текст на моей машине для разработки (MacBook Pro), но не на Windows Server 2012, где он возвращает 'NoneType'.
Очень запутанно, сначала я подумал, что библиотеки, но он использует тот же файл jar из apache (1.19.1)
try:
headers = {'X-Tika-PDFextractInlineImages': 'true',}
data = parser.from_file(pathtofile, serverEndpoint=self.TIKA_SERVER, headers=headers)
charstoreturn = data['content'].strip().split()[:limit]
charstoreturn = ' '.join(charstoreturn).replace("\n", " ").replace('"', "'").replace(",","").replace("’","'")
return True, charstoreturn
except Exception as err:
return False, "error {} on file: {}.\n".format(str(err), pathtofile)
Где TIKA_SERVER -' http://localhost:1234'pathtofile - это файл, который я тестирую с ошибкой
Ошибка в Windows: ошибка: объект 'NoneType' не имеет атрибута 'strip' в файле: \ testdata \ test2.pdf.
Любые идеи