Это не новый вопрос, и многие люди путают сервер приложений Pentaho и интеграцию данных Pentaho (Kettle).Спасибо маркетингу за переименование всех продуктов, приобретенных Pentaho, в Pentaho.Возможно, в будущем Pentaho будет переименован в Vantara, так что это поможет заранее все перемешать.
Если вы хотите кластеризовать выполнение преобразования, вы имеете дело с продуктом Pentaho Data Integration, который не имеет прямого отношения кPentaho BA сервер.Интеграция данных Pentaho, ранее известная как Kettle, может вообще существовать без сервера Pentaho BA (или сервера приложений Pentaho).А раньше было время, когда то, что называется PDI, вообще не было частью Pentaho, было названо по-другому, и сервер Carte уже был на месте и был частью Kettle.Теперь все это называется Pentaho pentaho pentaho, и, с моей точки зрения, это корень того, почему трудно найти разницу между Carte и сервером Pentaho BA и любым другим в экосистеме.
Вкратце - используется сервер Carteвыполнять PDI (чайник) задания / преобразования.Сервер Pentaho - это веб-приложение, используемое в качестве хранилища для отчетов и хостов механизма выполнения отчетов.Это совершенно разные проекты, даже связанные друг с другом для выполнения идеального анализа данных.
Почему Carte?
Откуда появился сервер Carte?Он родился от чайника.Сам чайник был рожден как инструмент для выполнения преобразований ETL .Он назывался K-et (t) le, потому что человек, который изобрел чайник, был поклонником KDE (Привет, Мэтт!), И он добавил k + etl, потому что все поклонники KDE любят добавлять K в качестве первой буквы к своему продукту.Я могу упомянуть расширения файлов .ktr .kjb - первая буква «K».Так инструмент назывался чайник.У него был пользовательский интерфейс для создания преобразований и рабочих мест.Затем - инструмент, созданный для запуска заданий XML и преобразований без интерфейса пользователя - он назвал Spoon в шутку, потому что основной инструмент назывался Kettle.Затем - люди сделали сервер карт - удаленный сервер или кластер серверов для выполнения заданий и преобразований ETL - так что в качестве основной линии он назывался Carte как винная карта.Речь идет о наименовании.
Если вы знакомы с заданиями и преобразованиями PDI - это просто простые XML-файлы метаданных, которые описывают, что делать, как и где и где извлекать информацию.Им нужен двигатель для исполнения.Они могут быть запущены на месте в конструкторе пользовательского интерфейса (PDI ui или kettle), они могут быть запланированы для запуска без пользовательского интерфейса (это выполнение Spoon), или они могут быть выполнены на 1 ... n удаленных серверах - так что это Carteвыполнение.
Сама Carte - это просто веб-сервер Jetty, который запускает и прослушивает входящий xml.Помните, задания PDI или преобразования - просто XML.Это может быть целый xml - это означает, что целое преобразование будет выполнено на Carte, или часть преобразования (удаленные шаги или удаленные преобразования).В любом случае - это запускает Java-процесс, который ожидает XML-метаданных о том, как извлечь из transfrom и загрузить.
Когда мы говорим о кластере серверов Carte - мы говорим об одном или нескольких серверах Jetty, запущенных вместе.Один из них может быть мастером.Если вы опубликуете свою работу / преобразование в master - он запустит процесс в соответствии с kjb / ktr xml и если обнаружит, что эта работа / трансформация предназначена для работы на кластере серверов карт, он отправит метаданные (в некоторых случаях данные)и рабы выполнят свою часть работы и вернут данные обратно мастеру.Существует много подробностей о том, как выполнить вашу работу / трансферы.на кластере карт - просто представьте, что это один или несколько серверов Jetty, способных выполнять задания / трансформации чайника.
Почему сервер Pentaho BA?
Теперь о том, как Pentaho BA прерываетрождения.
... Когда мы говорили о начале Kettle выше, в то же время совершенно независимо была компания из Пентахо, которая занималась созданием серверов BA.Они приобрели механизм отчетности (теперь называется Pentaho Reporting), механизм Мондриана для выполнения запросов MDX, и это была довольно успешная компания.Они даже изобрели x-действия в форме xml, чтобы выполнить несколько команд для своего сервера BA.Но повезло, мощный двигатель извлечения данных.И тогда они нашли чайник, упомянутый выше.Это был большой успех, у них был хороший механизм отчетов, и хороший механизм отчетов соответствовал хорошему инструменту извлечения данных.Поэтому они приобретают Kettle, переименовывают его в Pentaho Data Integration (все их продукты называются Pentaho), и он становится частью сервера Pentaho BA.
Pentaho BA и Carte ?
Как все это работает вместе?Когда вы запускаете отчет на сервере Pentaho BA, он пытается извлечь информацию из любого места.Сервер Pentaho BA включает в себя механизм отчетов, который отвечает за получение данных для генерации отчета.Если вы настроили свой отчет для чтения данных из PDI (ранее известного как чайник), это указывает на задание (.kjb) или преобразование (.ktr).Когда вы выполняете отчет на сервере Pentaho BA - механизм отчетов о вызовах сервера Pentaho BA, который находит, что отчет требует выполнения ktr / kjb, - так это вызовы механизма PDI для выполнения задания или преобразования для извлечения данных.Задание или преобразование можно настроить для запуска на одном или нескольких серверах Carte, поэтому при выполнении будет запрашиваться сервер Carte для выполнения этого задания или преобразования.Посмотрите: мы попросили сервер Pentaho BA выполнить отчет.Сервер Pentaho BA является сервером Tomcat.Сервер BA Pentaho создает отчет - но ему нужно запустить механизм PDI - и механизм PDI обнаруживает, что мы собираемся выполнить кластерное задание или преобразование, и он будет называть серверы Carte - которые вообще являются независимыми серверами.
Существуетслучаи, когда сервер Pentaho BA выполняет отчет - вызывает механизм PDI, а механизм PDI не требует какой-либо кластеризации на Carte для выполнения задания или трансформации.В этом случае PID-движок может выполняться в самом Java-процессе Pentaho BA (начиная с версии 7 Petaho он может быть полностью асинхронным).
В некоторых случаях вы можете запустить задание или преобразование даже без сервера Pentaho BA -используя Spoon для запуска kjb / ktr - и если вы настроили кластер Carte - вам вообще не нужен сервер BA Pentaho.
И помните, что есть также Pentaho Big Data Plugin, который является частью PDI / Pentaho /Чайник но есть своя история и соображения.Если вы будете копаться в мире Пентахо, вы встретитесь с ним однажды, так что не удивляйтесь.
И спасибо маркетингу за то, что он назвал все продукты Pentaho (я надеюсь, скоро все будут называться Vantara, чтобы все перемешать еще раз), Я помню с самого начала, что очень трудно понять, откуда и почему, и вот уже много лет не хватает хорошей документации на все это.
Это документация на сервере Carte. вы можете искать.Это для 5+, но я не ожидаю, что сейчас все изменится.