Spark: пропустите верхние ряды с помощью spark-excel - PullRequest
0 голосов
/ 05 мая 2018

У меня есть файл Excel с поврежденными строками вверху (3 первых ряда), который нужно пропустить, я использую библиотеку spark-excel для чтения файла Excel, на их github нет такая функциональность, так есть ли способ добиться этого?

Это мой код:

Dataset<Row> ds = session.read().format("com.crealytics.spark.excel")
                                .option("location", filePath)
                                .option("sheetName", "Feuil1")
                                .option("useHeader", "true")
                                .option("delimiter", "|")
                                .option("treatEmptyValuesAsNulls", "true")
                                .option("inferSchema", "true")
                                .option("addColorColumns", "false")
                                .load(filePath);

UPDATE

Я также признателен, если кто-то может порекомендовать другую зависимость, которая делает то же самое.

Ответы [ 3 ]

0 голосов
/ 23 мая 2018

Библиотека HadoopOffice (https://github.com/ZuInnoTe/hadoopoffice/wiki) поддерживает это также в своем источнике данных Spark (но также в Hive, Flink, MR): https://github.com/ZuInnoTe/spark-hadoopoffice-ds

0 голосов
/ 27 июля 2018

Эта проблема исправлена ​​с помощью spark excel 0.9.16, ссылка на проблему в github

0 голосов
/ 07 мая 2018

Я посмотрел на исходный код, и нет возможности для того же

https://github.com/crealytics/spark-excel/blob/master/src/main/scala/com/crealytics/spark/excel/DefaultSource.scala

Вы должны исправить свой файл Excel и удалить первые 3 строки. Или же вам нужно будет создать исправленную версию кода, чтобы позволить вам то же самое. Что потребует гораздо больше усилий, чем правильный лист Excel

...