Какие есть хорошие облачные или сторонние поисковые провайдеры? - PullRequest
4 голосов
/ 15 декабря 2010

Я работаю над сайтом с минимальным трафиком на данный момент. Он построен с использованием Ruby on Rails и работает на облачной платформе Heroku.

Как часть сайта, у меня есть большое количество страниц, которые должны быть доступны для поиска, на каждой из которых есть только небольшое количество информации. Подумайте о таблице статей, где каждая статья нуждается только в индексируемом заголовке, но в ней около 8 миллионов статей.

Postgres Search : Когда я впервые начал работать над этим, я запустил полнотекстовый поиск в Postgres, но, по-видимому, он недостаточно оптимизирован для поиска, чтобы обрабатывать такое количество проиндексированных элементов, и работал медленно. У меня были некоторые поиски, которые устанавливали тайм-аут соединения с базой данных и занимали более 30 секунд.

Websolr : Затем я перешел к тому единственному надстройке Heroku для облачного поиска, Websolr от OneMoreCloud. К сожалению, они взимаются по количеству проиндексированных элементов, что ужасно для такого сайта, как мой, у которого нет трафика, но имеется большое количество элементов для индексации, и у меня была производительность, которая, возможно, была хуже, чем поиск в Postgres, который был бесплатным. Когда поиск в Postgres истекает, а сайт отключается, Websolr возвращает пустой или частичный набор результатов, что заставляет зрителей думать, что результат отсутствует в базе данных.

Индексная емкость : Теперь Heroku добавил еще одного поставщика облачного поиска Index Tank, который все еще находится в бета-версии. Хотя бета-версия для него бесплатна, я не хочу пробовать их, потому что для их услуг, не относящихся к Heroku, которые не являются бесплатными, их самый высокий тарифный план имеет только 2 миллиона документов, и при этом уже стоит 500 долларов в месяц.

Поиск по сайту Google : Опция, на которую я сейчас обращаюсь, переходит к Google Site Search. Поисковая марка Google вселяет в меня уверенность, что я не столкнусь с проблемами с производительностью, которые у меня были в прошлом. Кроме того, их цены чрезвычайно разумны, и оценивается трафиком. Однако, с другой стороны, это не совсем интегрированный поиск, так как он не подключается к базе данных, а только просматривает веб-страницы, так что я не могу сказать, насколько точно можно указать поиск, когда он возвращает, скажем, статьи. в категории технических статей или что-то в этом роде. Даже настроить внешний вид результатов поиска кажется болезненным, потому что мне придется анализировать результаты поиска в формате XML, а затем использовать его для генерации страницы результатов поиска, и если я хочу настроить метаданные на дисплее мне пришлось бы использовать проанализированные результаты поиска, чтобы найти все строки результатов в моей базе данных.

Есть ли какие-нибудь хорошие варианты для облачных или сторонних поставщиков услуг поиска, которые вы бы порекомендовали сообществу Stackoverflow?

1 Ответ

1 голос
/ 10 августа 2011

Поиск http://www.searchblox.com/. Другой альтернативой, хотя и не облачным провайдером, было бы использование Elastic search http://www.elasticsearch.org/. Он очень прост в настройке и использовании и обычно работает OOTB.

Также здесь есть точка зрения самого создателя ES, сравнивающего ее с другими провайдерами: ElasticSearch, Sphinx, Lucene, Solr, Xapian.Что подходит для какого использования?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...