Pentaho v8.1 + Hadoop v2.7.4: проблема с подключением к Hadoop из PDA Pentaho - PullRequest
0 голосов
/ 12 сентября 2018

У меня проблемы с попыткой получить доступ к Hadoop для PDA Pentaho. Я провел некоторое исследование и обнаружил, что Pentaho использует адаптеры, называемые Shims, я вижу их как соединители с Hadoop, то есть драйверы JDBC в мире Java для подключения к базе данных.

Похоже, что в новой версии PDI (v8.1) по умолчанию установлены 4 Shims, все они, похоже, являются специальными дистрибутивами таких компаний, как Big Data, как HortonWorks, MapR, Cloudera.

Когда я проводил дальнейшие исследования больших данных Pentaho PDI, в более ранних версиях они поддерживали установки Apache Hadoop "Vanilla".

Я только что скачал Apache Hadoop с сайта с открытым исходным кодом и установил его в Windows.

Таким образом, моя установка Hadoop будет считаться установкой Hadoop "Vanilla".

Но когда я попробовал что-то в PDI, я использовал HortonWorks Shim, и когда я тестировал что-то с точки зрения соединения, он сказал, что ему удалось подключиться к Hadoop, НО не смог найти каталог по умолчанию и корневой каталог .

У меня есть скриншоты ошибок ниже:

enter image description here

enter image description here

Итак, можно видеть, что ошибки происходят от доступа к каталогам, кажется: 1) Доступ к домашнему каталогу пользователя 2) Доступ к корневому каталогу

ТАК, так как я использую HortonWorks Shim и знаю, что у него есть некоторые каталоги по умолчанию (я уже использовал виртуальную машину HortonWorks Hadoop раньше).

* * Тысяча двадцать восемь (1) Мой вопрос: если я использую HortonWorks Shim для подключения к моей установке "Vanilla" Hadoop, нужно ли мне твитнуть какой-нибудь файл конфигурации, чтобы установить некоторые каталоги по умолчанию. (2) Если я не могу использовать HortonWorks Shim, как мне установить «Vanilla» Hadoop Shim?

Также я нашел этот пост с 2013 года здесь на stackoverflow:

Невозможно подключиться к HDFS с помощью PDI, шаг

Не уверен, насколько актуальна эта ссылка на информацию.

Надеюсь, кто-то, кто имеет опыт с этим, может помочь.

Я забыл добавить эту дополнительную информацию:

Файл core-site.xml, который у меня есть для Hadoop, содержит следующее:

<configuration>
<property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
   </property>
</configuration>

ТАК, что покрывает это.

...