Войти

Запомнить

Регистрация

Лента
Топ
Теги
Новая

brykneval 24 октября 2019 49

Невозможно правильно извлечь текст из Apache Tika

0 голосов

brykneval / 24 октября 2019

Я использую Apache tika и пытаюсь извлечь текст из PDF. PDF выглядит хорошо, но когда я извлекаю, я получаю

E�� вместо ОБРАЗОВАНИЯ

Пробное копирование на слово, где я только получил E

ЛюбойБуду признателен за помощь, я приложил скриншот, так как не могу вставить pdf.

Я думаю, его тег латинские символы, Unicode версии 3.1, но не уверен,

java
разбор
апач-тик

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Извлечение подробных сведений о текстовом документе Microsft с использованием Apache Tika Python или библиотеки Java.
Как загрузить определенный шрифт в apache tikka?
Парсинг PDF в Apache TIKA
Тика и PDFBox неправильно добавляют новые строки в PDF
Ошибка при разборе двоичных файлов ... (в основном PDF)
использовать тика в Nutch плагин
Попытка разобрать двоичные данные ... И в большинстве случаев это pdf
Приложение XPath с использованием тика парсера
Почему ForkParser Тики выдает ошибку NoClassDefFoundError, когда парсер автоопределения работает нормально?
Разбор XML-файла с использованием Apache Tika

...