Spark xml api добавляет дополнительный интервал, равный числу строк, при записи данных перед тегом root - PullRequest
0 голосов
/ 17 января 2020

Я читаю следующий CSV-файл в кадре данных

Dataset<Row> df=spark.read().format("csv")
.option("inferSchema", true).option("header",true).load("/home/Downloads/new.csv");

Product,Canada,China,Mexico,USA
Orange,2000,4000,5000,4000
Beans,2000,1500,2000,1600
Banana,2000,400,2000,1000
Carrots,2000,1200,200,1500

и при записи его обратно с помощью spark xml api я получаю дополнительные пробелы в xml до root тег начинается с лиц, которые здесь

df2.write
                    .format("com.databricks.spark.xml")
                    .option("rootTag", "persons")
                    .option("rowTag", "person")
                    .save("src/main/resources/persons_new.xml");

Таким образом, вывод -

<persons>
    <row>
        <Product>Orange</Product>
        <Canada>2000</Canada>
        <China>4000</China>
        <Mexico>5000</Mexico>
        <USA>4000</USA>
    </row>
    <row>
        <Product>Beans</Product>
        <Canada>2000</Canada>
        <China>1500</China>
        <Mexico>2000</Mexico>
        <USA>1600</USA>
    </row>
    <row>
        <Product>Banana</Product>
        <Canada>2000</Canada>
        <China>400</China>
        <Mexico>2000</Mexico>
        <USA>1000</USA>
    </row>
    <row>
        <Product>Carrots</Product>
        <Canada>2000</Canada>
        <China>1200</China>
        <Mexico>200</Mexico>
        <USA>1500</USA>
    </row>
</persons>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...