Рекомендуется ли использовать параллельную обработку Hadoop Ecosystems для управления и поддержки медленно меняющихся измерений хранилища данных? - PullRequest
0 голосов
/ 31 марта 2019

У нас есть транзакционные почасовые данные и данные ежедневной массовой загрузки из операционных систем, которые мы встраиваем в измерения (и факты) хранилища данных в среде MS SQL Server. Если рекомендуется, какие быстрые и эффективные методы (Flume, Sqoop, Kafka, HDFS, HBase, Hive, KUDU, Spark, Impla) мы могли бы применить для достижения этого в Hadoop? Предполагается, что эти измерения будут ежечасно использоваться хранилищем данных MS SQL Server.

1 Ответ

0 голосов
/ 01 апреля 2019

возможный вариант - Nifi или MiniFi

https://nifi.apache.org/

...