scala spark для чтения файла из кластера hdfs - PullRequest
1 голос
/ 09 июля 2019

Я учусь разрабатывать искровые приложения с использованием Scala. И я на первых шагах. У меня есть Scala IDE на окнах. настроен и работает без проблем при чтении файлов с локального диска. Однако у меня есть доступ к удаленному кластеру hdfs и базе данных Hive, и я хочу разрабатывать, пробовать и тестировать свои приложения на этом кластере Hadoop ... но я не знаю как :(

Если я попытаюсь

val rdd=sc.textFile("hdfs://masternode:9000/user/hive/warehouse/dwh_db_jrtf.db/discipline")

Я получу ошибку, содержащую:

Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "MyLap/11.22.33.44"; destination host is: "masternode":9000; 

Может кто-нибудь направить меня, пожалуйста?

1 Ответ

0 голосов
/ 09 июля 2019

Вы можете использовать SBT для упаковки вашего кода в файл .jar. scp ваш файл на вашем узле, затем попробуйте отправить его, выполнив spark-submit.

spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

Таким образом, вы не можете получить доступ к своему кластеру с вашего компьютера с Windows.

...