Медленная загрузка PDI в базы данных Azure - PullRequest
0 голосов
/ 17 сентября 2018

У меня установлена ​​виртуальная машина Azure с установленной интеграцией данных Pentaho, я пытаюсь создать ETL, который загружает размерную модель из промежуточной области, но когда я начинаю преобразование, скорость загрузки PDI в любую базу данных Azure мучительно медленно.

Возможно ли, чтобы PDI работал в облаке с базами данных Azure? Какой шаг настройки необходим для достижения разумной скорости загрузки?

PS:

  • ВМ и базы данных находятся в одном регионе
  • Существует правило брандмауэра, разрешающее доступ к порту
  • Скорость чтения работает нормально
  • PDI 8.1 с использованием шага вывода таблицы

1 Ответ

0 голосов
/ 26 февраля 2019

У меня возникла та же проблема со скоростью, но я расскажу вам, как с этим справиться.

Прежде всего: Загрузите и установите последнюю версию драйвера jdbc, позволяющую установить соединение с лазурью.База данных sql, в документации ссылка здесь , но я могу синхронизировать ее отсюда в GitHub . Все это позволит вам использовать последнюю версию драйвера в PDI.

Второй обходной путь: для больших файлов, что мне показалось наиболее мощным, - это использование BCP Utility , интегрированной с PowerShell или Linux Batch.Не имеет значения, являются ли эти файлы локальными или находятся в хранилище BLOB-объектов Azure, но для этого могут потребоваться учетные данные.

Последнее, но не менее важное: Использование Фабрика данных Azure V2 перемещать и загружать файлы (если вы похожи на меня, я стараюсь держать его в PDI до тех пор, пока мне не придется его загружать, http get step позволит вам запустить конвейер ADF).

Хорошоудачи и дай мне знать, если получишь.

...