Практические пределы ElasticSearch + Cassandra - PullRequest
24 голосов
/ 15 июня 2011

Я планирую использовать ElasticSearch для индексации моей базы данных Cassandra.Мне интересно, видел ли кто-нибудь практические ограничения ElasticSearch.Все замедляется в петабайтном диапазоне?Кроме того, есть ли у кого-нибудь проблемы с использованием ElasticSearch для индексации Cassandra?

Ответы [ 4 ]

25 голосов
/ 21 июня 2011

См. этот поток от 2011 года, в котором упоминаются конфигурации ElasticSearch с 1700 осколками каждый по 200 ГБ, что будет в диапазоне 1/3 петабайта. Я ожидаю, что архитектура ElasticSearch будет поддерживать практически неограниченную горизонтальную масштабируемость, поскольку каждый индекс сегмента работает отдельно от всех остальных сегментов.

Практические ограничения (которые будут применяться и к любому другому решению) включают время, необходимое для фактической загрузки такого большого количества данных. Управление кластером Cassandra (или любым другим распределенным хранилищем данных) такого размера также потребует значительной рабочей нагрузки только для обслуживания, балансировки нагрузки и т. Д.

13 голосов
/ 01 мая 2012

Sonian - это компания, на которую ссылается кимчи в этой теме. У нас есть более петабайта на AWS в нескольких кластерах ES. Не существует технических ограничений на то, насколько далеко вы можете масштабировать ES, но, как упоминалось в ДНК, существуют практические проблемы. Самым большим на сегодняшний день является сеть. Это относится к каждому распределенному хранилищу данных. Вы можете перемещаться только по проводу за раз. Когда ES должен восстанавливаться после сбоя, он должен перемещать данные. Наилучший вариант - использовать меньшие осколки на нескольких узлах (более параллельная передача), но вы рискуете получить более высокую частоту отказов и непомерную цену на байт.

0 голосов
/ 10 ноября 2017

В настоящее время я начинаю работать с Элисандрой (Elasticsearch + Cassandra)

У меня также возникают проблемы с индексированием Cassandra с помощью эластичного поиска.Моя проблема в основном в конфигурации узла.

Делая $ nodetool status вы можете увидеть Host ID и затем разрушая:

curl -XGET http://localhost:9200/_cluster/state/?pretty=true

Вы можете проверить, что один из node: имеет то же имя, что иHost ID

0 голосов
/ 12 июня 2014

Как упоминалось в ДНК, 1700 осколков, но это не 1700 осколков, но есть 1700 индексов, каждый с 1 осколком и 1 репликой.Поэтому вполне возможно, что эти 1700 индексов отсутствуют на одной машине, а разбиты на несколько машин.Так что это никогда не проблема

...