Инструмент поиска индекса для личных файлов базы знаний - PullRequest
1 голос
/ 27 апреля 2009

У меня есть большое количество базовых текстовых файлов, файлов rtf, html, pdf и chm, которые я храню на USB-накопителе в качестве личной базы знаний.

До настоящего времени для получения информации я использовал стандартные инструменты поиска файлов (поиск в Windows, grep и т. Д.). Однако в наши дни поиск методом перебора может занять минуты из-за большого объема данных. Также PDF и CHM также более сложны для поиска.

Поэтому я ищу инструмент индексирования текста, который будет хорошо работать в этой ситуации. Я хочу избежать зависимости от СУБД (т. Е. SQL Server, MySQL), так как я буду использовать ее на многих разных компьютерах и не хочу проблем с установкой. Портативный инструмент будет идеальным. На некоторых машинах я также часто буду без доступа в интернет.

Было бы замечательно то, что обеспечивает простой графический интерфейс, позволяющий вводить запросы и быстрый доступ к результатам.

Я думал о том, чтобы написать это сам, однако это немного больше работы, чем у меня сейчас есть время.

Ответы [ 2 ]

3 голосов
/ 27 апреля 2009

Google Desktop выполняет эту индексацию за вас, как и Поиск рабочего стола Windows (в Windows). Beagle - отличный инструмент для поиска в Linux.

1 голос
/ 27 апреля 2009

Если вам захочется немного повозиться, я бы воспользовался Lucene - либо чистой версией Java, либо взял бы копию https://lucene.apache.org/.
Это полнотекстовый индексатор и библиотека поиска, идеально подходящая для запуска с usb.

...