Я работаю над сайтом с минимальным трафиком на данный момент. Он построен с использованием Ruby on Rails и работает на облачной платформе Heroku.
Как часть сайта, у меня есть большое количество страниц, которые должны быть доступны для поиска, на каждой из которых есть только небольшое количество информации. Подумайте о таблице статей, где каждая статья нуждается только в индексируемом заголовке, но в ней около 8 миллионов статей.
Postgres Search :
Когда я впервые начал работать над этим, я запустил полнотекстовый поиск в Postgres, но, по-видимому, он недостаточно оптимизирован для поиска, чтобы обрабатывать такое количество проиндексированных элементов, и работал медленно. У меня были некоторые поиски, которые устанавливали тайм-аут соединения с базой данных и занимали более 30 секунд.
Websolr :
Затем я перешел к тому единственному надстройке Heroku для облачного поиска, Websolr от OneMoreCloud. К сожалению, они взимаются по количеству проиндексированных элементов, что ужасно для такого сайта, как мой, у которого нет трафика, но имеется большое количество элементов для индексации, и у меня была производительность, которая, возможно, была хуже, чем поиск в Postgres, который был бесплатным. Когда поиск в Postgres истекает, а сайт отключается, Websolr возвращает пустой или частичный набор результатов, что заставляет зрителей думать, что результат отсутствует в базе данных.
Индексная емкость :
Теперь Heroku добавил еще одного поставщика облачного поиска Index Tank, который все еще находится в бета-версии. Хотя бета-версия для него бесплатна, я не хочу пробовать их, потому что для их услуг, не относящихся к Heroku, которые не являются бесплатными, их самый высокий тарифный план имеет только 2 миллиона документов, и при этом уже стоит 500 долларов в месяц.
Поиск по сайту Google :
Опция, на которую я сейчас обращаюсь, переходит к Google Site Search. Поисковая марка Google вселяет в меня уверенность, что я не столкнусь с проблемами с производительностью, которые у меня были в прошлом. Кроме того, их цены чрезвычайно разумны, и оценивается трафиком. Однако, с другой стороны, это не совсем интегрированный поиск, так как он не подключается к базе данных, а только просматривает веб-страницы, так что я не могу сказать, насколько точно можно указать поиск, когда он возвращает, скажем, статьи. в категории технических статей или что-то в этом роде. Даже настроить внешний вид результатов поиска кажется болезненным, потому что мне придется анализировать результаты поиска в формате XML, а затем использовать его для генерации страницы результатов поиска, и если я хочу настроить метаданные на дисплее мне пришлось бы использовать проанализированные результаты поиска, чтобы найти все строки результатов в моей базе данных.
Есть ли какие-нибудь хорошие варианты для облачных или сторонних поставщиков услуг поиска, которые вы бы порекомендовали сообществу Stackoverflow?