Моя команда получила задание просмотреть ~ 3800 документов, чтобы узнать, какие из них полезно...
Сейчас я тестирую извлечение полного текста с помощью Apache Tika.Я использую фасадный класс Tika с...
Я хотел бы извлечь содержимое из файла PDF.Я использую Apache Tika 1.15 в качестве инструмента...
Я использую java с apache tika 1.18 для конвертации некоторых файлов в TXT.Когда я пытаюсь...
Я пытаюсь использовать Dropbox в качестве облачного хранилища файлов для приложения / скрипта....
У нас есть действительно старые документы .doc.Обычно мы используем tika (наше приложение обычно...
Сервер Apache Tika REST предоставляет документ в формате PDF с кодом состояния пароля 422...
Я добавил Tika в качестве ссылки на мою реализацию StormCrawler, и это позволяет извлекать...
Я пытаюсь извлечь все встроенные файлы в текстовый файл (docx) и поместить вложенные файлы в...
Я использую Apache Tika 1.18, и когда я использую один фреймворк веб-сервиса (sparkjava), код ниже...
Я очень новичок в Apache Tika и пытаюсь понять, как его использовать. Я читал некоторые блоги через...
Я использую Apache Tika 1.17 для извлечения контента из файлов PDF.На странице в PDF есть небольшое...
Я портировал Apache Tika на Android. У меня есть основной вопрос. Работая над EPubParser, я могу...
Я запускаю задание resque, которое содержит следующую строку: temp = %x(/usr/bin/java -jar...
Я использую DIH для индексации локальной файловой системы. Но путь к файлу, размер и поле...
Я хочу добавить PDF-файлы в Lucene Index (вероятно, я сделал).Теперь я хочу извлечь конкретный...
Я использую парсер Tika для индексации моих файлов в Solr. Я создал свой собственный парсер...
Как я могу сделать Apache Tika индексировать каталог PDF и текстовые файлы, включая подкаталоги, и...
Я использую Apache Tika для извлечения метаданных из документов.В основном меня интересует...
В сущности, я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их...
Утилита графического интерфейса Apache Tika предоставляет возможность получения основного...
Я скачал исходную папку Apache Tika и установил Maven. Затем с помощью командной строки (mvn...
Можно ли получить содержимое буфера обмена из формата Microsoft Office с помощью Apache Tika? Как...
Я хочу убрать нерегулярный веб-контент - (может быть html, pdf image и т. Д.) В основном html.Я...
сначала я попытался определить язык фарси с помощью tika: как я могу определить веб-страницы на...