как проиндексировать папку с помощью lucene.net - PullRequest
0 голосов
/ 15 декабря 2010

Я пытаюсь разработать поисковую систему в asp.net, используя lucene.net. Я прошёл много уроков и страниц, чтобы получить подходящие результаты, но не смог. На самом деле у меня есть папка с некоторыми файлами (doc, ppt, pdf, excel и т. Д.), И я хочу искать в этой папке только содержимое, и если результаты не найдены в этой папке, то попросите пользователя выполнить поиск в Интернете.

например, у меня есть папка с тысячами файлов @ C: \ test и если пользователь искал «miller», он должен искать в каждом документе. если результаты найдены, то должны отображаться такие результаты

Найденный текстовый файл отсутствует. miller C: \ test \ 1 \ file.doc 5 Миллер С: \ test \ 1 \ 11 \ new.doc 2

Пожалуйста, помогите мне, я не получаю подходящих результатов.

1 Ответ

1 голос
/ 15 декабря 2010

Lucene / Lucene.NET - это просто механизм индексирования, вам все еще нужно извлечь текст из типов файлов, которые вы хотите поддерживать самостоятельно - в Windows вы можете использовать интерфейс IFilter для многих типов файлов , если у вас установлен Acrobat Reader 7+, должна быть встроенная поддержка IFilter для файлов PDF. Что касается самой части индексации, то существует множество примеров.

Также смотрите эту ветку Какой хороший метод для извлечения текста из PDF с использованием C # или классического ASP (VBScript)?

...