Невозможно правильно извлечь текст из Apache Tika - PullRequest
0 голосов
/ 24 октября 2019

Я использую Apache tika и пытаюсь извлечь текст из PDF. PDF выглядит хорошо, но когда я извлекаю, я получаю

E�������� вместо ОБРАЗОВАНИЯ

Пробное копирование на слово, где я только получил E

ЛюбойБуду признателен за помощь, я приложил скриншот, так как не могу вставить pdf.

Я думаю, его тег латинские символы, Unicode версии 3.1, но не уверен,

enter image description here

...