Вопросы с тегом апач-тик - PullRequest

Вопросы с тегом апач-тик

0 голосов
0 ответов

Нет атрибутов тегов, сохраняемых Apache Tika, когда я конвертирую docx файл в HTML.Какие-либо...

Anurag Gupta / 25 сентября 2018
0 голосов
0 ответов

Tika Procesor отлично работает с обычными не отсканированными PDF-файлами, но не может обработать...

Sakthivel Sabapathy / 25 сентября 2018
0 голосов
0 ответов

вот мой код, который используется для извлечения контента и метаданных, к сожалению, этот код...

RData / 24 сентября 2018
0 голосов
0 ответов

Apache Tika не сохраняет настройки и цвета фона контента.Где я не прав? Написал что-то вроде ниже,...

Anurag Gupta / 24 сентября 2018
0 голосов
0 ответов

Я пытался разобрать содержимое из файла .docx и столкнулся с проблемами val file : File = new...

RData / 22 сентября 2018
0 голосов
0 ответов

Я скачал tika-app-1.18.jar, jdk-8u181-linux-i586.tar.gz, затем извлек jdk-8u181-linux-i586.tar.gz и...

Nitinkumar Ambekar / 19 сентября 2018
0 голосов
1 ответ

У меня есть метод scala ниже, предназначенный для извлечения содержимого строки RTF: def...

mongolol / 19 сентября 2018
0 голосов
0 ответов

Я создал сервлет для загрузки файлов в базу данных MySQL:...

Neo Cortex / 17 сентября 2018
0 голосов
1 ответ

Я использую TIKA для индексирования документов. затем я хочу получить весь абзац от начала абзаца...

V.qin / 12 сентября 2018
0 голосов
1 ответ

Мой проект строится с использованием Leiningen с использованием библиотеки pantomime 2.10.0 [com

Bob Kuhar / 07 сентября 2018
0 голосов
0 ответов

Я работаю с Solr-6.5.1, я хочу извлечь текст из файла изображения и файла ImagePdf. Для этого я...

vinu / 06 сентября 2018
0 голосов
0 ответов

Я пытался заставить Apache-Tika работать с этим пакетом python: https://github

Ryan Fasching / 06 сентября 2018
0 голосов
0 ответов

Я использую Apache Tika для файлов OCR. С PDF-файлами работает нормально, но с djvu есть проблемы....

Michal / 05 сентября 2018
0 голосов
0 ответов

Я пытаюсь переместить все связанные с Tika классы в новый класс, используя maven-shade-plugin, как...

Naveen Kumar / 05 сентября 2018
0 голосов
0 ответов

Я работаю над solr, чтобы индексировать все типы документов и извлекать содержимое из документа без...

vinu / 05 сентября 2018
0 голосов
0 ответов

Я ползаю, используя Apache Nutch 1.13.На этапе разбора я получаю эту ошибку.Я не могу получить URL,...

Vibhor Verma / 25 августа 2018
0 голосов
0 ответов

Я использую Tika для проверки типов файлов и чтобы убедиться, что никто не пытается отправить...

takuter / 03 июля 2018
0 голосов
1 ответ

Я работаю с файлами NetCDF и FITS, и у меня есть Тика, работающая на извлечение текста заголовка в...

mutanthumb / 26 июня 2018
0 голосов
1 ответ

Я использую TIKA и Tesseract для извлечения текста OCR из PDF-файлов, которые содержат...

UABajwah / 25 июня 2018
0 голосов
2 ответов

Существует PDF-документ с вложениями (здесь: joboptions), которые не должны быть извлечены Tika

Daniel S. / 12 июня 2018
0 голосов
0 ответов

Мне нужно перечислить все файлы с выбранным типом с помощью инструмента Apache Tika, моя цель -...

Mateusz Kierznowski / 05 июня 2018
0 голосов
1 ответ

Я использую pdfbox для преобразования pdf в txt, но у меня есть несколько файлов в папке, которые...

vikas Madaan / 05 июня 2018
0 голосов
1 ответ

Мы индексируем содержимое Documentum в Elasticsearch, используя Manifold Cf.мы не можем получить...

Pavithra / 04 июня 2018
0 голосов
2 ответов

У меня есть данные в виде PDF-файлов, и я хочу преобразовать их в текст.Я хочу удалить изображения,...

vikas Madaan / 04 июня 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...