У меня проблемы с попыткой получить доступ к Hadoop для PDA Pentaho.
Я провел некоторое исследование и обнаружил, что Pentaho использует адаптеры, называемые Shims, я вижу их как соединители с Hadoop, то есть драйверы JDBC в мире Java для подключения к базе данных.
Похоже, что в новой версии PDI (v8.1) по умолчанию установлены 4 Shims, все они, похоже, являются специальными дистрибутивами таких компаний, как Big Data, как HortonWorks, MapR, Cloudera.
Когда я проводил дальнейшие исследования больших данных Pentaho PDI, в более ранних версиях они поддерживали установки Apache Hadoop "Vanilla".
Я только что скачал Apache Hadoop с сайта с открытым исходным кодом и установил его в Windows.
Таким образом, моя установка Hadoop будет считаться установкой Hadoop "Vanilla".
Но когда я попробовал что-то в PDI, я использовал HortonWorks Shim, и когда я тестировал что-то с точки зрения соединения, он сказал, что ему удалось подключиться к Hadoop, НО не смог найти каталог по умолчанию и корневой каталог .
У меня есть скриншоты ошибок ниже:
![enter image description here](https://i.stack.imgur.com/EYown.png)
![enter image description here](https://i.stack.imgur.com/JNMzn.png)
Итак, можно видеть, что ошибки происходят от доступа к каталогам, кажется:
1) Доступ к домашнему каталогу пользователя
2) Доступ к корневому каталогу
ТАК, так как я использую HortonWorks Shim и знаю, что у него есть некоторые каталоги по умолчанию (я уже использовал виртуальную машину HortonWorks Hadoop раньше).
* * Тысяча двадцать восемь (1)
Мой вопрос: если я использую HortonWorks Shim для подключения к моей установке "Vanilla" Hadoop, нужно ли мне твитнуть какой-нибудь файл конфигурации, чтобы установить некоторые каталоги по умолчанию.
(2) Если я не могу использовать HortonWorks Shim, как мне установить «Vanilla» Hadoop Shim?
Также я нашел этот пост с 2013 года здесь на stackoverflow:
Невозможно подключиться к HDFS с помощью PDI, шаг
Не уверен, насколько актуальна эта ссылка на информацию.
Надеюсь, кто-то, кто имеет опыт с этим, может помочь.
Я забыл добавить эту дополнительную информацию:
Файл core-site.xml, который у меня есть для Hadoop, содержит следующее:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
ТАК, что покрывает это.