Как можно реализовать data me sh концепцию разработки данных продукта или приложения - PullRequest
2 голосов
/ 28 апреля 2020

Я пытаюсь реализовать концепцию data me sh в бизнес-приложении. Позвольте мне сначала описать:

Уже использованные данные HDFS, hive и cassandra_database для управления данными.

1: Насколько мне известно, в data me sh концепция нескольких баз данных, локальные данные Озеро данных и хранилища данных связаны в единую точку, распределяющую эти данные. здесь каждое хранилище данных, озера данных или базы данных являются одним узлом для данных me sh. Является ли эта общая концепция правильной для данных me sh?

2: Как реализовать в моем проекте, я пытаюсь с базой данных graphDb, потому что он поддерживает подключение кластера к другой базе данных в качестве главного и рабочего узла (хранилище).

3: Могу ли я проверить с другой платформой, кроме graphDb. как neo4j, возможно ли это?

Кто-нибудь может помочь реализовать технологию data me sh в моем проекте или любую ссылку для реализации.

Ответы [ 2 ]

2 голосов
/ 28 апреля 2020

Пока я работал в одной из крупнейших медицинских компаний в мире, мы спроектировали и построили крупнейшую в мире медицинскую базу данных «Me sh», которая располагалась на вершине наших хранилищ управляемых данных.

При концептуализации базы данных мы планировали иметь 52 ТБ данных в оперативной памяти через 3 года (еще в 2018 году). Проведя некоторые исследования на рынке Graph DB (Anzo, Neptune, Neo4j), мы в итоге выбрали TigerGraph для скорости и масштаба. TigerGraph позволит вам масштабироваться по горизонтали (добавляя больше машин для создания большего кластера)

Если вам нужны ресурсы по началу работы: https://community.tigergraph.com/t/tigergraph-getting-started-guide/11

Если вы хотел бы, чтобы в бесплатной среде для песочницы поиграли: https://tgcloud.io

0 голосов
/ 05 мая 2020

Если вы хотите построить огромный масштабный график для аналитики, взгляните на AnzoGraph DB, которая представляет собой механизм хранилища данных с графикой массивной параллельной обработки (MPP), который обеспечивает почти линейное масштабирование с горизонтальным масштабированием за счет добавления дополнительных Товарные серверы Intel. В архитектуре нет ничего общего, поэтому все данные автоматически разделяются по кластеру, и каждый запрос автоматически разбивается на программы на C ++, которые одновременно выполняются параллельно на каждом ядре процессора.

AnzoGraph оптимизирован для запросов в стиле OLAP, то есть чрезвычайно быстрой параллельной загрузки, обширных наборов данных, сложных аналитических запросов, динамических c и материализованных представлений, а также превосходной производительности ELT, необходимой для итеративной очистки, связывания и изменения данных графика в базе данных. по мере необходимости. В отличие от большинства OLAP и графических систем, база данных не имеет схемы, что позволяет немедленно загружать (даже грязные) исходные данные без создания конвейеров ETL и целевой схемы заранее или предварительно формируя исходные данные в граф перед загрузкой. Опция виртуального графа (виртуализация данных / федеративный запрос), которая позволяет при желании оставить части исходных данных графа в исходном источнике, доступ к которым возможен только при обращении с помощью автоматических запросов c pu sh, вниз. Существует бесплатная версия для одного сервера.

Обратите внимание, что AnzoGraph не предназначен для OLTP, как Neo или Neptune.

Отказ от ответственности: я работаю в Cambridge Semantics In c.

...