Подходит ли Cleo (решение автозаполнения linkedin) для миллиардов элементов? - PullRequest
1 голос
/ 04 января 2012

Cleo имеет несколько различных типов поиска, которые основаны на некоторых очень умных стратегиях индексации. GenericTypeahead предположительно предназначен для самого большого набора данных. От http://sna -projects.com / cleo / design.php : «GenericTypeahead предназначен для больших наборов данных, которые могут содержать миллионы элементов ...» К сожалению, документация не учитывает, насколько хорошо или как масштабируется Typeahead. Кто-нибудь использовал Клео для очень больших наборов данных, которые могут иметь некоторое понимание?

1 Ответ

5 голосов
/ 13 января 2012

Cleo предназначен для одного экземпляра / узла (то есть для одной JVM) и не имеет никакой логики маршрутизации или брокера. В одном экземпляре Cleo вы можете иметь несколько логических разделов, чтобы использовать преимущества многоядерных процессоров. На типовой коробке с 32G - 64G памятью вы можете легко поддерживать десятки миллионов элементов, настроив 2 или 3 экземпляра Cleo GenericTypeahead.

Чтобы поддерживать миллиарды элементов, вам придется использовать горизонтальное разбиение, чтобы настроить множество экземпляров Cleo на многие товарные боксы, а затем выполнить разброс и сбор.

Изучите https://github.com/jingwei/cleo-primer, чтобы узнать, как настроить отдельный экземпляр Cleo GenericTypeahead в течение нескольких минут.

Приветствие.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...