Я применяю индексатор простого текста на моем сервере разработки. Я использую Xapian-Omega для индексации файлов (omindex).
Omindex хорошо работает почти со всеми типами MIME, но с php файлами, содержащими специальные символы, он не работает.
I'm используя эту команду для индексации файлов:
omindex -v -d='replace' --db /var/lib/omega/data/default --url /dados /SATA/data/Shares/dados --filter=application/pdf:'pdftotext2' --stemmer='portuguese'
Следующее изображение представляет вывод на моей веб-странице при выполнении поиска.
Как видно на рисунке, данные файлов типа do c отображаются с правильными специальными символами.
Для основных файлов. PHP (сохраняются в различных кодах utf-8), специальные символы представлены неправильными символами.
Есть ли способ решить эту проблему?