Как зарегистрировать Java SPark UDF в спарк-оболочке? - PullRequest
0 голосов
/ 19 февраля 2019

Ниже приведен мой java-код udf,

package com.udf;

import org.apache.spark.sql.api.java.UDF1;

public class SparkUDF implements UDF1<String, String> {
    @Override
    public String call(String arg) throws Exception {
        if (validateString(arg))
            return arg;
        return "INVALID";
    }

public static boolean validateString(String arg) {
    if (arg == null | arg.length() != 11)
        return false;
    else
        return true;
}
}

Я создаю Jar с таким классом как SparkUdf-1.0-SNAPSHOT.jar

У меня есть имя таблицы в качестве образца в улье, и я хотелзапустить ниже sql на оболочке spark.

> select UDF(name) from sample ;

Запуск оболочки spark с помощью следующей команды.

оболочка spark --jars SparkUdf-1.0-SNAPSHOT.jar

Может кто-нибудь сказать, как зарегистрировать UDF на spark shell, чтобы использовать его в spark sql?

1 Ответ

0 голосов
/ 20 февраля 2019

После еще нескольких поисков я получил ответ,

Ниже приведены шаги,

spark-shell --jars SparkUdf-1.0-SNAPSHOT.jar

scala> import com.udf.SparkUDF;
scala> import com.udf.SparkUDF;
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

scala> spark.udf.register("myfunc", new SparkUDF(),StringType)

scala> val sql1 = """ select myfunc(name) from sample """

scala> spark.sql(sql1).show();

Вы получите результаты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...