Индексирование файлов с помощью SPHINX / ultrasphinx - PullRequest
0 голосов
/ 22 марта 2011

Я разрабатываю приложение, которое будет собирать данные с веб-сайтов.Детали, такие как page_url, site_url, last_modified, будут сохранены в базе данных, а page_content будет сохранен в файле.Позже я хочу искать содержимое файла.Я пытаюсь в Thinkingsphinx добиться этого.У кого-нибудь есть идеи, как это реализовать?

Ответы [ 2 ]

1 голос
/ 22 марта 2011

Я не верю, что Sphinx / ThinkingSphinx подходит вам, поскольку они предназначены для общения с базами данных.

Взгляните на эту тему: http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff/aa4ae8e21c42e67c?lnk=gst&q=files#aa4ae8e21c42e67c

0 голосов
/ 22 марта 2011

Не могли бы вы вместо этого переключиться на полнотекстовый поиск Solr? Я слышал, что он может индексировать даже двоичные файлы, такие как PDF или word

http://lucene.apache.org/solr/tutorial.html[enter ссылка на описание здесь] [1]

...