Swish-E написан на C и может делать то, что вы хотите. Не требует базы данных, использует собственный формат файла двоичного индекса.
Я также использовал ht: // Dig , но, похоже, прошло много времени с тех пор, как эта программа поддерживалась.
Оба прекрасно скомпилируются в Linux и индексируют HTML.
Третий вариант - SINO , используемый AustLII . Свяжитесь с командой, чтобы убедиться, что вы получите последнюю версию. Должен компилироваться на Linux без особых проблем. На самом деле он не предназначен для встраиваемых систем (SINO означает Size Is No Object), но у него был приличный API, который я выглядел в последнее время и относительно маленький (поэтому он не предназначен для этого, но может работать так же хорошо). Ориентирован на HTML. Довольно быстрая индексация. Стоит посмотреть, я думаю. (Раскрытие: работал там давным-давно)
Наконец, мы используем Solr , основанный на Lucene . Solr использует простой API, основанный на размещении XML-документов на сервере. Довольно простой интерфейс, независимо от того, на каком языке вы говорите.