Как проиндексировать 300 000 текстовых файлов для поиска? - PullRequest
1 голос
/ 01 июня 2011

У меня есть статическая коллекция из более чем 300 000 текстовых и HTML-файлов. Я хочу иметь возможность искать их по словам, точным фразам и в идеале шаблонам регулярных выражений Я хочу, чтобы поиски были быстрыми.

Я думаю, что поиск слов и фраз можно выполнить путем поиска словаря уникальных слов, относящихся к файлам, содержащим каждое слово, но есть ли способ получить достаточно быстрое соответствие регулярному выражению?

Я не против использовать существующее программное обеспечение, если оно существует.

Ответы [ 4 ]

4 голосов
/ 01 июня 2011
1 голос
/ 01 июня 2011

На рынке доступно множество пакетов, которые помогут вам достичь того, что вы хотите, некоторые с открытым исходным кодом, а некоторые поставляются с ценами:

Opensource:

asticsearch - на основе люцена

constellio - на основе люцена

Сфинкс - на основе C ++

Solr - построен на основе люцена

0 голосов
/ 01 июня 2011
0 голосов
/ 01 июня 2011

Вы можете взглянуть на Microsoft Search Server Express 2010: http://www.microsoft.com/enterprisesearch/searchserverexpress/en/us/technical-resources.aspx

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...