Pentaho PDI - это инструмент для создания, управления, запуска и мониторинга рабочих процессов ETL. Он может работать с Hadoop, RDBMS, очередями, файлами и т. Д. Hadoop - это платформа для распределенных вычислений (платформа Map-Reduce, HDFS и т. Д.). Многие инструменты могут работать на Hadoop или подключаться к Hadoop и использовать его данные, запускать процессы.
Pentaho PDI может подключаться к Hadoop, используя собственные разъемы, и записывать / читать данные. Вы можете запустить задание Hadopp из PDI, также оно может самостоятельно обрабатывать данные в потоке преобразования и сохранять или отправлять результаты в HDFS, RDBMS, некоторую очередь, электронную почту и т. Д. Конечно, вы можете изобрести свой собственный инструмент для рабочих процессов ETL или просто использовать bash + Hive и т. Д., Но PDI позволяет унифицированно обрабатывать ETL, независимо от источников данных и целей. Также Pentaho имеет отличную визуализацию.