Мне нужен какой-то совет.Я работаю над новым стартапом в области интеллектуального анализа данных.По сути, это побочный результат исследовательского проекта.
В любом случае, если у нас имеется большое количество неструктурированных данных, мы проводим различные НЛП, классификационный и кластерный анализ этих данных.
У нас есть миллионы сообщений, начиная от сообщений в Твиттере, сообщений в блогах, сообщений на форумах, новых статей в газетах, отчетов и т. Д. И т. Д. Весь текст.В целом мы берем около 300 ГБ + текстовых данных и растем каждый день (около 10 ГБ в день)!
Так что нам нужно где-то хранить всю эту информацию в формате, который мы можем фактически обработать, запросить и получитьотносительные результаты в реальном времени.
В любом случае нам нужно где-то хранить эти данные ...
Поскольку это новый стартап, мы действительно не можем / не хотим платить за лицензированныйпродукт, например, корпоративная версия VoltDB, Oracle и т. д. недосягаем.
Я подумал, что это может быть идеальным приложением для базы данных "NoSQL", не связанной с отношениями, такой как Apache Cassandra или Hadoop / HBase (колонкасемейство), MongoDB (документ), VoltDB (сообщество edn) или MySQL.
В настоящее время все данные находятся в текстовых файлах TSV и обрабатываются как записанные в файл.Излишне говорить, что это больно, и это означает, что все дело в одном процессе, и мы не можем запросить его.Это работает, но его способ ограничен из-за богатства того, что мы могли бы делать с этим набором данных.
В любом случае, я надеялся, что кто-то может поделиться своим опытом, используя любой из вышеперечисленных инструментов или любые рекомендации для этого варианта использования.(большой набор неструктурированных текстовых данных) для обработки естественного языка, классификации, кластеризации, сбора частот, анализа в реальном времени и т. д.?
Я больше всего опасаюсь, что MySQL не сможет обрабатывать огромные объемы данныхидти вперед.Это будет в терабайтовом диапазоне к концу года, поэтому мы частично пытаемся достичь вершины кривой и роста, внедряя масштабируемое решение, которое позволит нам легко запрашивать данные ...
Я думаю, что лучше использовать базу данных семейства столбцов non-rel / NoSQL, например HBase, для нас, когда мы постоянно добавляем новые источники данных (сканеры, потоковые API и т. Д.), Будет гораздо проще, если у нас будет неструктурированная модель.
Любая помощь будет принята с благодарностью!Черт, там даже может быть работа:)
Ура!