Я использую Apache tika и пытаюсь извлечь текст из PDF. PDF выглядит хорошо, но когда я извлекаю, я получаю
E�������� вместо ОБРАЗОВАНИЯ
Пробное копирование на слово, где я только получил E
ЛюбойБуду признателен за помощь, я приложил скриншот, так как не могу вставить pdf.
Я думаю, его тег латинские символы, Unicode версии 3.1, но не уверен,