Как использовать источник данных spark xml в. net? - PullRequest
0 голосов
/ 04 марта 2020

Есть ли способ использовать spark- xml (https://github.com/databricks/spark-xml) в задании spark .net / c#?

1 Ответ

0 голосов
/ 10 марта 2020

Мне удалось использовать источник данных spark- xml из. Net. Вот тестовая программа:

using Microsoft.Spark.Sql;

    namespace MySparkApp
    {
        class Program
        {
            static void Main(string[] args)
            {
                SparkSession spark = SparkSession
                    .Builder()
                    .AppName("spark-xml-example")
                    .GetOrCreate();

                DataFrame df = spark.Read()
                    .Option("rowTag", "book")
                    .Format("xml")
                    .Load("books.xml");
                df.Show();

                df.Select("author", "_id")
                    .Write()
                    .Format("xml")
                    .Option("rootTag", "books")
                    .Option("rowTag", "book")
                    .Save("newbooks.xml");
                spark.Stop();
            }
        }
    }

Оформление заказа https://github.com/databricks/spark-xml и сборка JAR сборки с помощью команды 'sbt assembly', скопируйте Jar сборки в рабочую область проекта do tnet.

Проект сборки: сделать tnet построить

Отправить задание Spark:

$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.deploy.dotnet.DotnetRunner \
--jars scala-2.11/spark-xml-assembly-0.10.0.jar \
--master local bin/Debug/netcoreapp3.1/microsoft-spark-2.4.x-0.10.0.jar \
dotnet bin/Debug/netcoreapp3.1/sparkxml.dll
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...