Question

У меня есть простой Spark-код, который отлично работает при локальном запуске, однако, когда я пытаюсь запустить его с помощью Spark Standalone Cluster с Docker, он странным образом не работает.

Я могу подтвердить, что интеграция с мастером и работником

В приведенном ниже коде я показываю, где возникает ошибка.

JavaRDD<Row> rddwithoutMap = dataFrame.javaRDD();
JavaRDD<Row> rddwithMap = dataFrame.javaRDD()
            .map((Function<Row, Row>) row -> row);

long count = rddwithoutMap.count(); //here is fine
long countBeforeMap = rddwithMap.count(); // here I get the error

После Карты я не могу назвать действие Spark.

ошибкаCaused by: java.lang.ClassNotFoundException: com.apssouza.lambda.MyApp$1

Obs: я использую лямбду на карте, чтобы сделать код более читабельным, но я также не могу использовать лямбду при использовании автономной версии.Caused by: java.lang.ClassCastException: cannot assign instance of java.lang.invoke.SerializedLambda to field org.apache.spark.api.java.JavaPairRDD$$anonfun$toScalaFunction$1.fun$1 of type org.apache.spark.api.java.function.Function in instance of org.apache.spark.api.java.JavaPairRDD$$anonfun$toScalaFunction$1

Изображение Docker: bde2020/spark-master:2.3.2-hadoop2.7

Локальная версия Spark: 2.4.0

Версия Spark-зависимости: spark-core_2.112.3.2

public class MyApp {
public static void main(String[] args) throws IOException, URISyntaxException {
//        String sparkMasterUrl = "local[*]";
//        String csvFile = "/Users/apssouza/Projetos/java/lambda-arch/data/spark/input/localhost.csv";

    String sparkMasterUrl = "spark://spark-master:7077";
    String csvFile = "hdfs://namenode:8020/user/lambda/localhost.csv";
    SparkConf sparkConf = new SparkConf()
            .setAppName("Lambda-demo")
            .setMaster(sparkMasterUrl);
         // .setJars(/path/to/my/jar); I even tried to set the jar
    JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);
    SQLContext sqlContext = new SQLContext(sparkContext);
    Dataset<Row> dataFrame = sqlContext.read()
            .format("csv")
            .option("header", "true")
            .load(csvFile);

    JavaRDD<Row> rddwithoutMap = dataFrame.javaRDD();
    JavaRDD<Row> rddwithMap = dataFrame.javaRDD()
            .map((Function<Row, Row>) row -> row);

     long count = rddwithoutMap.count();
     long countBeforeMap = rddwithMap.count();

    }
}

<?xml version="1.0" encoding="UTF-8"?>

<project>
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.apssouza.lambda</groupId>
  <artifactId>lambda-arch</artifactId>
  <version>1.0-SNAPSHOT</version>

  <name>lambda-arch</name>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <dependencies>

<dependency>
  <groupId>com.fasterxml.jackson.core</groupId>
  <artifactId>jackson-databind</artifactId>
  <version>2.9.7</version>
</dependency>

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.3.2</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-sql_2.11</artifactId>
  <version>2.3.2</version>
</dependency>

<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-lang3</artifactId>
  <version>3.6</version>
</dependency>

<dependency>
  <groupId>com.fasterxml.jackson.module</groupId>
  <artifactId>jackson-module-scala_2.11</artifactId>
  <version>2.9.7</version>
</dependency>

  </dependencies>


</project>

Obs: если раскомментировать первые две строки, все работает отлично.

Alexsandro Souza · Answer 1 · 27 декабря 2018

Проблема заключалась в том, что я не упаковывал свою программу перед ее запуском и получал устаревшую версию своего приложения в кластере Spark.Это странно, потому что я запускаю его через свою IDE (IntelliJ), и перед запуском он должен упаковать jar-файл.В любом случае, mvn package до нажатия кнопки запуска решило проблему.

Задание Spark работает при локальном запуске, но не работает в автономном режиме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Задание Spark работает при локальном запуске, но не работает в автономном режиме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы