Я использую LanguageIdentifierUpdateProcessor для определения языка и, соответственно, для...
У меня есть следующий файл конфигурации для solr: <requestHandler...
Я пытаюсь опубликовать буквальное многозначное поле вместе с PDF-фрагментом.Кажется, только одно из...
Я получаю исключение при попытке использовать обновление / извлечение файлов PDF Мои настройки: -...
Я использую apache Tika 1.0.Используя ForkParser, каждый раз, когда я анализирую pdf-файлы, я...
Я работаю с SOLR над проектом, в который мы импортируем кучу (~ 40 тыс. Элементов) богатых...
Я сканирую веб-страницу и после сканирования извлекаю все ссылки с этой веб-страницы, а затем...
Похоже, что Solr неправильно анализирует мои PDF-файлы.Мне было интересно, есть ли какая-либо...
Я видел релиз 1.0 Apache Tika, который значительно облегчает извлечение метаданных в Java, и мне...
Я индексирую документы с форматированным текстом в SOLR 3.4, используя ExtractingRequestHandler, и...
У меня возникают трудности при выполнении Solr с Tika , мои документы продолжают падать при...
У меня проблема с извлечением текста из PDF в Solr. Solr использует Apache Tika для извлечения...
У меня есть файл, который нужно проиндексировать на нашем сервере solr.Как я могу загрузить файл?Я...
Прежде всего, я прошел через все вопросы, касающиеся включения файлов jar для апплета. Но даже...
Когда я пытаюсь извлечь текст из моих файлов PDF, кажется, что я случайно вставляю пробелы между...
Я пытаюсь заставить Solr работать с Tika, чтобы я мог проиндексировать документы Word и PDF на...
Я использую библиотеку PHP под названием solr-php-client (http://code.google
Мой первый пост в Stack Overflow, так что будьте нежны, пожалуйста! Я собираюсь начать новый проект...
<dependency> <groupId>org.apache.tika</groupId>...
Я пытаюсь проанализировать pdf-файл с помощью Apache Tika после обновления версии PDFBOX до 1.6.0 .
Я пытаюсь проанализировать pdf-файл, используя Apache Tika, используя ByteArrayInputStream для...
Что не так с этим кодом ... Я пытаюсь разобрать pdf-файлы и извлечь из него текст ... Но для...
Я пытаюсь извлечь метаданные, используя apache tika, а затем помещая их в HashMap. Но мой код get -...
Я использую POI для извлечения данных из файла Excel. (5-й столбец в листе Excel содержит имена...