Дистанционная искра;Ява;HDFS (Apache Spark (2.4.4) - PullRequest
1 голос
/ 04 октября 2019

Настройка

У меня есть Apache Spark (2.4.4), работающий в Linux (Ubuntu 18.04.3 LTS (GNU / Linux 4.15.0-65-generic x86_64)) У меня также есть hadoop (hdfs) работает на той же Linux-коробке. (hostname: ikarakas.fritz.box, IP: 192.168.188.76)

Мое приложение драйвера (в Java; 1.8.0_73) находится на компьютере Mac.

Вот выдержка из моегоприложение драйвера

public void startUp() {
    System.out.println(getNowISO() + "-----TEST: startUp");

    String sparkMaster = "ikarakas.fritz.box";

    SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
            .setMaster("spark://" + sparkMaster + ":7077");

    spark = SparkSession
            .builder()
            .config(conf)
            .config("spark.sql.session.timeZone", "UTC")
            .getOrCreate();


    l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
    // ...
}

Проблема

Мое приложение никогда не может завершить оператор spark.read.json (...).

Когда я проверяю интерфейс мониторинга Spark Web Job, я вижу, что моя работа застряла на этом номере строки;например,

org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)

Все, что я пытаюсь сделать, это запустить свою работу на удаленном главном компьютере и, как часть этого, иметь возможность загружать файл из hdf-файлов.

Есть идеи? Спасибо

...