Какую стратегию использовать для проектирования хранилища данных журнала? - PullRequest
2 голосов
/ 14 октября 2011

Мы хотим спроектировать хранилище данных с реляционной базой данных, хранящей журналы сообщений с запросами (http / s, xmpp и т. Д.).Для создания журналов мы используем решение на основе Apache Synapse ESB.Однако, поскольку мы хотим хранить журналы и читать журналы только из-за проблем с обслуживанием, соотношение чтения / записи будет низким.(количество записей будет интенсивным, поскольку система будет получать много сообщений для регистрации.) Мы думали об использовании Cassandra для его распределенной природы и возможностей кластеризации.Однако со схемами базы данных Cassandra поисковые запросы с фильтром сложны, всегда требуя вторичных индексов.

Короче говоря, мой вопрос в том, должны ли мы попробовать кластерные решения mysql или использовать Cassandra с подходящим дизайном схемы для поисковых запросов с фильтрами?

1 Ответ

0 голосов
/ 15 октября 2011

Если вы хотите проводить аналитику в реальном времени по полуструктурированным или неструктурированным данным, вы можете использовать кластер Cassandra + Hadoop.Так как сама Cassandra wiki предлагает Datastax Brisk Edition, для такой архитектуры.Стоит попробовать

С другой стороны, если вы хотите выполнять запросы в реальном времени по необработанным журналам для небольшого набора данных.Ex.

select useragent from raw_log_table where id='xxx'

Затем вы должны провести много исследований над ключом строки и ключом столбца дизайна.Потому что это решает сложность запроса.Лучше взгляните на тематические исследования людей здесь http://www.datastax.com/cassandrausers 1

С уважением, тамильский

...