Вопросы с тегом апач-тик

2 голосов

2 ответов

Не индексирует и не извлекает документ (.pdf .doc) из удаленно

Я использую Solr 3.1, Apache Tika 0.9 и Solrnet 0.3.1 для индексирования документа, например, файла...

Dhaval950 / 05 мая 2011

10 голосов

3 ответов

Можно ли извлечь текст за страницей для файлов word / pdf с помощью Apache Tika?

Кажется, что вся документация, которую я могу найти, предполагает, что я могу извлечь только...

Asif Sheikh / 29 апреля 2011

0 голосов

1 ответ

Solr 3.1 не индексирует файл

Я успешно настроил Solr 3.1 с Apache tika 0.9 Я не изменяю файл Schema.xml (схема по умолчанию) и...

Dhaval950 / 26 апреля 2011

0 голосов

1 ответ

Как настроить Tika 0.9 с Solr 3.1

Можете ли вы дать мне шаги по настройке Tika 0.9 с Solr 3.1 <requestHandler...

Dhaval950 / 20 апреля 2011

2 голосов

1 ответ

Извлечение текста из документов неизвестного типа контента

есть ли в Apache Tika парсер для типа application/octet-stream? Я полагаю, что это не анализируемый...

lisak / 01 апреля 2011

0 голосов

2 ответов

чтобы разобрать html в строку, я использовал тика парсер, но я столкнулся с некоторыми проблемами, такими как библиотеки и ошибки в jdeveloper

Во-первых, мне нужно скачать tika-bundle-0.9.jar, но я не могу его найти. Вскоре я написал эти try...

lkalay / 29 марта 2011

7 голосов

2 ответов

Как я могу использовать анализатор HTML с Apache Tika в Java для извлечения всех тегов HTML?

Я загружаю библиотеки tika-core и tika-parser, но не могу найти примеры кодов для разбора...

lkalay / 25 марта 2011

0 голосов

1 ответ

Ошибка компиляции Apache Tika

Я получаю эту ошибку при компиляции Apache Tika последней версии на Debian. Любая помощь будет...

Alex Kleshchevnikov / 22 марта 2011

1 голос

1 ответ

Извлечение текста из файлов .tex с помощью Tika

Как извлечь текст из файла .tex с помощью Apache Tika? Файл примера находится в http://www.tug

nikhil500 / 15 марта 2011

0 голосов

1 ответ

проблема извлечения Solr Tika

Я использую тика с dataimporthandler. при выполнении полного импорта я получаю следующие ошибки....

Brahmaji Rao / 11 марта 2011

1 голос

1 ответ

Извлечение метаданных с помощью Apache Jackrabbit

Я немного использовал Alfresco, а над Apache Tika был тонкий слой абстракции для извлечения...

lisak / 01 марта 2011

2 голосов

1 ответ

Как использовать следующие технологии ECM - сравнение

У меня есть теоретический вопрос.У меня есть тонны документов различных форматов (ODS, MS office,...

lisak / 28 февраля 2011

7 голосов

1 ответ

Apache Tika и метаданные документа

Я занимаюсь простой обработкой различных документов (ODS, MS office, pdf) с помощью Apache Tika.Я...

lisak / 27 февраля 2011

1 голос

2 ответов

найти MIME-тип WMA-файлов с использованием Java

Я использую apache tika для обнаружения mime-типов аудио и видео файлов.По какой-то причине tika...

Ajith Jose / 11 февраля 2011

2 голосов

1 ответ

Разобрать структуру документа с помощью Java

Нам нужно получить древовидную структуру из данного текстового документа, используя Java....

Arttu / 10 февраля 2011

2 голосов

1 ответ

Получение извлеченного текста с помощью Apache Solr

Я новичок в Apache Solr и хочу использовать его для индексации PDF-файлов. Мне удалось его...

DeX3 / 09 февраля 2011

5 голосов

1 ответ

Как увеличить документ SOLR при индексации с помощью / solr / update

Чтобы проиндексировать мой сайт, у меня есть скрипт Ruby, который, в свою очередь, генерирует...

Dan Tenenbaum / 09 февраля 2011

0 голосов

1 ответ

Solr Tika, текст со стилем

Я видел эту ссылку: http://www.lucidimagination

ali / 14 декабря 2010

5 голосов

1 ответ

Индексирование PDF с номерами страниц с помощью Solr

Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler.Я хотел бы отобразить...

Daniel Hepper / 04 ноября 2010

0 голосов

1 ответ

Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов

Можете ли вы использовать ExtractingRequestHandler и Tika с любым из форматов сжатых файлов (zip,...

Richie Rich / 25 октября 2010

5 голосов

2 ответов

Как настроить Apache Tika с помощью Apache Solr 1.4.1

Я хочу проиндексировать большое количество PDF-документов. Я нашел ссылку, показывающую, что это...

Ahsan Iqbal / 05 октября 2010

2 голосов

1 ответ

Индексирование документов PDF

Каков наилучший способ индексирования PDF-документов?Должен ли я индексировать их путем...

Ahsan Iqbal / 18 сентября 2010

0 голосов

2 ответов

Извлечь данные XML из файла GZIP с помощью Apache Тика?

Я работаю над проектом, в котором мне нужно извлечь данные XML (карта сайта) из файла gz с помощью...

Natsabari / 16 августа 2010

1 голос

1 ответ

SOLR Tika: добавить текст файла в существующую запись (ExtractingRequestHandler)

Я индексирую сообщения в SOLR с полями "name", "title" и "description". Позже я хотел бы добавить...

Matt Hampel / 28 июля 2010

1 голос

1 ответ

Способы отправки двоичных / структурированных документов в SOLR?

Я использую SOLR's ExtractingRequestHandler для загрузки текста документов. Все примеры в...

Matt Hampel / 27 июля 2010