Полнотекстовый поиск с помощью мультимедийных файлов - PullRequest
0 голосов
/ 10 февраля 2010

Каков наилучший способ выполнения полнотекстового поиска по мультимедийным файлам? Я пытаюсь реализовать систему, в которой пользователь мог бы загружать случайные файлы (.doc, .pdf, .jpg, ...) и в дальнейшем, он мог бы искать их на основе содержимого файла или метаданных.

Буду признателен за некоторые идеи о том, как это построить.

PS - Я начал изучать Lucene и Nutch, но я думаю, что они делают намного больше, чем мне нужно.

Спасибо.

1 Ответ

2 голосов
/ 11 мая 2010

Вы должны взглянуть на Tika (http://lucene.apache.org/tika/)), который является набором инструментов для обнаружения и извлечения метаданных и структурированного текста.

...