Pentaho и Hadoop - PullRequest
       17

Pentaho и Hadoop

0 голосов
/ 25 апреля 2018

Прошу прощения, если этот вопрос кажется наивным, но я новичок в области инженерии данных, так как сейчас я учусь самостоятельно, однако мои вопросы - в чем различия между продуктами ETL, такими как Pentaho и Hadoop? когда я использую это вместо этого? или я могу использовать их вместе, как?

Спасибо,

Ответы [ 2 ]

0 голосов
/ 25 апреля 2018

Pentaho PDI - это инструмент для создания, управления, запуска и мониторинга рабочих процессов ETL. Он может работать с Hadoop, RDBMS, очередями, файлами и т. Д. Hadoop - это платформа для распределенных вычислений (платформа Map-Reduce, HDFS и т. Д.). Многие инструменты могут работать на Hadoop или подключаться к Hadoop и использовать его данные, запускать процессы.

Pentaho PDI может подключаться к Hadoop, используя собственные разъемы, и записывать / читать данные. Вы можете запустить задание Hadopp из PDI, также оно может самостоятельно обрабатывать данные в потоке преобразования и сохранять или отправлять результаты в HDFS, RDBMS, некоторую очередь, электронную почту и т. Д. Конечно, вы можете изобрести свой собственный инструмент для рабочих процессов ETL или просто использовать bash + Hive и т. Д., Но PDI позволяет унифицированно обрабатывать ETL, независимо от источников данных и целей. Также Pentaho имеет отличную визуализацию.

0 голосов
/ 25 апреля 2018

ETL - это инструмент для извлечения данных, преобразования (объединения, обогащения, фильтрации, ...) и загрузки результата в другое хранилище данных. Хорошие ETLS визуальны, независимы от хранилища данных и просты в автоматизации.

Hadoop - это хранилище данных, распределенное по сети кластеров плюс программное обеспечение для обработки зараженных данных. Преобразование данных специализируется на нескольких элементарных операциях, которые можно оптимизировать для этого обычно огромного объема данных, например (но не только) Map-Reduce.

Pentaho Data Integrator имеет разъемы для систем Hadoop, которые легко настраивать и настраивать. Таким образом, лучшая стратегия состоит в том, чтобы настроить сеть Hadoop в качестве хранилища данных и манипулировать ею через PDI.

...