Использование Ruby-on-Rails, Sphinx или UltraSphinx и источника HTML (не базы данных) - PullRequest
0 голосов
/ 29 июля 2009

В документации говорится о sphinx-0.9.9-rc2:

Индексируемые данные обычно могут поступать из самых разных источников: SQL базы данных, текстовые файлы, файлы HTML, почтовые ящики и т. д.

Однако я не могу найти никакой документации по настройке источника кроме SQL. Файл конфигурации, кажется, не указывает, что источником может быть что угодно, кроме базы данных. У кого-нибудь есть полезные ссылки для настройки сфинкса с помощью источника HTML?

1 Ответ

1 голос
/ 30 июля 2009

Вы ищете функцию xmlpipe (теперь она называется xmlpipe2) в Sphinx? Я опробовал его для файлов XML, и он работает так же, как и для SQL.

Я не пробовал Sphinx с простыми HTML-файлами, поэтому я предполагаю, что вам нужно будет проанализировать ваш HTML-файл и создать XML-файлы с атрибутами / полями, которые вы хотите проиндексировать, и передать их в Sphinx с помощью xmlpipe.

Вы можете увидеть здесь и здесь , чтобы узнать больше.

НТН

...