Нет атрибутов тегов, сохраняемых Apache Tika, когда я конвертирую docx файл в HTML.Какие-либо...
Tika Procesor отлично работает с обычными не отсканированными PDF-файлами, но не может обработать...
вот мой код, который используется для извлечения контента и метаданных, к сожалению, этот код...
Apache Tika не сохраняет настройки и цвета фона контента.Где я не прав? Написал что-то вроде ниже,...
Я пытался разобрать содержимое из файла .docx и столкнулся с проблемами val file : File = new...
Я скачал tika-app-1.18.jar, jdk-8u181-linux-i586.tar.gz, затем извлек jdk-8u181-linux-i586.tar.gz и...
У меня есть метод scala ниже, предназначенный для извлечения содержимого строки RTF: def...
Я использую apache tika, чтобы получить контент как html/xhtml в проекте appengine.Я читаю файл из...
Я создал сервлет для загрузки файлов в базу данных MySQL:...
Я использую TIKA для индексирования документов. затем я хочу получить весь абзац от начала абзаца...
Мой проект строится с использованием Leiningen с использованием библиотеки pantomime 2.10.0 [com
Я работаю с Solr-6.5.1, я хочу извлечь текст из файла изображения и файла ImagePdf. Для этого я...
Я пытался заставить Apache-Tika работать с этим пакетом python: https://github
Я использую Apache Tika для файлов OCR. С PDF-файлами работает нормально, но с djvu есть проблемы....
Я пытаюсь переместить все связанные с Tika классы в новый класс, используя maven-shade-plugin, как...
Я работаю над solr, чтобы индексировать все типы документов и извлекать содержимое из документа без...
Я ползаю, используя Apache Nutch 1.13.На этапе разбора я получаю эту ошибку.Я не могу получить URL,...
Я использую Tika для проверки типов файлов и чтобы убедиться, что никто не пытается отправить...
Я работаю с файлами NetCDF и FITS, и у меня есть Тика, работающая на извлечение текста заголовка в...
Я использую TIKA и Tesseract для извлечения текста OCR из PDF-файлов, которые содержат...
Существует PDF-документ с вложениями (здесь: joboptions), которые не должны быть извлечены Tika
Мне нужно перечислить все файлы с выбранным типом с помощью инструмента Apache Tika, моя цель -...
Я использую pdfbox для преобразования pdf в txt, но у меня есть несколько файлов в папке, которые...
Мы индексируем содержимое Documentum в Elasticsearch, используя Manifold Cf.мы не можем получить...
У меня есть данные в виде PDF-файлов, и я хочу преобразовать их в текст.Я хочу удалить изображения,...