Настройка
У меня есть Apache Spark (2.4.4), работающий в Linux (Ubuntu 18.04.3 LTS (GNU / Linux 4.15.0-65-generic x86_64)) У меня также есть hadoop (hdfs) работает на той же Linux-коробке. (hostname: ikarakas.fritz.box, IP: 192.168.188.76)
Мое приложение драйвера (в Java; 1.8.0_73) находится на компьютере Mac.
Вот выдержка из моегоприложение драйвера
public void startUp() {
System.out.println(getNowISO() + "-----TEST: startUp");
String sparkMaster = "ikarakas.fritz.box";
SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
.setMaster("spark://" + sparkMaster + ":7077");
spark = SparkSession
.builder()
.config(conf)
.config("spark.sql.session.timeZone", "UTC")
.getOrCreate();
l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
// ...
}
Проблема
Мое приложение никогда не может завершить оператор spark.read.json (...).
Когда я проверяю интерфейс мониторинга Spark Web Job, я вижу, что моя работа застряла на этом номере строки;например,
org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)
Все, что я пытаюсь сделать, это запустить свою работу на удаленном главном компьютере и, как часть этого, иметь возможность загружать файл из hdf-файлов.
Есть идеи? Спасибо