Вопросы с тегом апач-тик

0 голосов

0 ответов

Атрибуты HTML-тегов не сохраняются Apache Tika при конвертации из docx в HTML

Нет атрибутов тегов, сохраняемых Apache Tika, когда я конвертирую docx файл в HTML.Какие-либо...

Anurag Gupta / 25 сентября 2018

0 голосов

0 ответов

Как определить причину, по которой процессор Tika не работает для документов OCR (отсканированных документов PDF) в моей системе?

Tika Procesor отлично работает с обычными не отсканированными PDF-файлами, но не может обработать...

Sakthivel Sabapathy / 25 сентября 2018

0 голосов

0 ответов

Apache Tika Обработка исключений

вот мой код, который используется для извлечения контента и метаданных, к сожалению, этот код...

RData / 24 сентября 2018

0 голосов

0 ответов

Фон содержимого и цвета не сохраняются при преобразовании файла Docx в HTML в Java с использованием Apache Tika

Apache Tika не сохраняет настройки и цвета фона контента.Где я не прав? Написал что-то вроде ниже,...

Anurag Gupta / 24 сентября 2018

0 голосов

0 ответов

Apache Tika для docx

Я пытался разобрать содержимое из файла .docx и столкнулся с проблемами val file : File = new...

RData / 22 сентября 2018

0 голосов

0 ответов

Как разобрать изображения с помощью tika-app - *. Jar?

Я скачал tika-app-1.18.jar, jdk-8u181-linux-i586.tar.gz, затем извлек jdk-8u181-linux-i586.tar.gz и...

Nitinkumar Ambekar / 19 сентября 2018

0 голосов

1 ответ

Парсинг RTF в Tika дает только символы новой строки

У меня есть метод scala ниже, предназначенный для извлечения содержимого строки RTF: def...

mongolol / 19 сентября 2018

0 голосов

0 ответов

Невозможно использовать тика в движке приложения Google в качестве ограниченного доступа к javax.iamgeio.imageio и удалять формы docx с помощью apache poi

Я использую apache tika, чтобы получить контент как html/xhtml в проекте appengine.Я читаю файл из...

lufy / 18 сентября 2018

0 голосов

0 ответов

Как заполнить таблицу базы данных mysql метаданными загруженного файла

Я создал сервлет для загрузки файлов в базу данных MySQL:...

Neo Cortex / 17 сентября 2018

0 голосов

1 ответ

Как получить результат абзаца от поиска по ключевым словам solr после использования tika для индексации некоторых документов?

Я использую TIKA для индексирования документов. затем я хочу получить весь абзац от начала абзаца...

V.qin / 12 сентября 2018

0 голосов

1 ответ

"ВНИМАНИЕ: JBIG2ImageReader не загружен." но [org.apache.pdfbox / jbig2-imageio "3.0.1"] существует?

Мой проект строится с использованием Leiningen с использованием библиотеки pantomime 2.10.0 [com

Bob Kuhar / 07 сентября 2018

0 голосов

0 ответов

Solr извлечь текст из изображений и изображений PDF-файлов

Я работаю с Solr-6.5.1, я хочу извлечь текст из файла изображения и файла ImagePdf. Для этого я...

vinu / 06 сентября 2018

0 голосов

0 ответов

422 Тика ответ сервера? Тик-Python

Я пытался заставить Apache-Tika работать с этим пакетом python: https://github

Ryan Fasching / 06 сентября 2018

0 голосов

0 ответов

Извлечение текста из DjVu с помощью Apache Tika

Я использую Apache Tika для файлов OCR. С PDF-файлами работает нормально, но с djvu есть проблемы....

Michal / 05 сентября 2018

0 голосов

0 ответов

Maven перемещение для Tika API

Я пытаюсь переместить все связанные с Tika классы в новый класс, используя maven-shade-plugin, как...

Naveen Kumar / 05 сентября 2018

0 голосов

0 ответов

Solr curl ExtractOnly для PDF-файла

Я работаю над solr, чтобы индексировать все типы документов и извлекать содержимое из документа без...

vinu / 05 сентября 2018

0 голосов

0 ответов

NoSuchMethodException при разборе на Apache Nutch

Я ползаю, используя Apache Nutch 1.13.На этапе разбора я получаю эту ошибку.Я не могу получить URL,...

Vibhor Verma / 25 августа 2018

0 голосов

0 ответов

Как получить подтип MIME для документа Office вместо получения OOXML в Tika

Я использую Tika для проверки типов файлов и чтобы убедиться, что никто не пытается отправить...

takuter / 03 июля 2018

0 голосов

1 ответ

Извлечение текста для FITS похож на NetCDF?

Я работаю с файлами NetCDF и FITS, и у меня есть Тика, работающая на извлечение текста заголовка в...

mutanthumb / 26 июня 2018

0 голосов

1 ответ

Зачем использовать RecursiveParserWrapper вместо Parser для извлечения текста из изображений?

Я использую TIKA и Tesseract для извлечения текста OCR из PDF-файлов, которые содержат...

UABajwah / 25 июня 2018

0 голосов

2 ответов

Tika Parser: исключить вложения в формате PDF

Существует PDF-документ с вложениями (здесь: joboptions), которые не должны быть извлечены Tika

Daniel S. / 12 июня 2018

0 голосов

0 ответов

Apache Tika - все файлы из каталога, указанного в ArrayList

Мне нужно перечислить все файлы с выбранным типом с помощью инструмента Apache Tika, моя цель -...

Mateusz Kierznowski / 05 июня 2018

0 голосов

1 ответ

Несколько PDF-файл в TXT в Java

Я использую pdfbox для преобразования pdf в txt, но у меня есть несколько файлов в папке, которые...

vikas Madaan / 05 июня 2018

0 голосов

1 ответ

Извлечение содержимого с использованием преобразования Tika - Manifold CF

Мы индексируем содержимое Documentum в Elasticsearch, используя Manifold Cf.мы не можем получить...

Pavithra / 04 июня 2018

0 голосов

2 ответов

Конвертация PDF в TXT

У меня есть данные в виде PDF-файлов, и я хочу преобразовать их в текст.Я хочу удалить изображения,...

vikas Madaan / 04 июня 2018