Кассандра или Hadoop Hive или MYSQL? - PullRequest
3 голосов
/ 18 августа 2010

Я занимаюсь разработкой веб-сканера, который подходит для хранения данных? Cassandra или Hadoop Hive или MySQL? И почему? У меня есть 1 ТБ данных за последние 6 месяцев в моей базе данных MySQL, мне нужно их проиндексировать, и мне нужно получить результат в моем поиске как можно скорее, и, как я думаю, это будет хранить больше данных, например, 10 байт, поскольку мой сканер работает быстро, мне нужно быстро выполнить операцию чтения / записи, мне нужно интегрировать ее в мое приложение PHP

Ответы [ 3 ]

3 голосов
/ 18 августа 2010

Это зависит от деталей ваших требований, но я думаю, что в вашем случае HBase будет лучшим вариантом.
Использование HBase в качестве базы данных веб-сканера хорошо документировано, и его использование HBase описано в техническом описании BigTable.

0 голосов
/ 01 октября 2013

Это зависит от ваших требований. Используйте HBASE в случае быстрого анализа потоковых данных в режиме реального времени.Cassandra лучше всего подходит для сценариев быстрой записи, поскольку ее чтение медленное по сравнению с HBASE.

Hive также является хорошей альтернативой.Для улучшения характеристик улья используйте Impala.

0 голосов
/ 20 августа 2010

Вы ищете что-то, что предназначено для поиска документов по их содержанию - оно должно основываться на инвертированном индексе.Я думаю, что наиболее естественным соответствием будет Lucene .

См. Также эту статью о стеке Hadoop-Lucene для запроса терабайт документов.

...