Question

Я хочу прочитать несколько файлов паркета из папки, которая также содержит некоторые другие типы файлов (csv, avro) в кадре данных. Я хочу читать только если его паркет и пропустить и перейти к следующему, если таковые имеются. Проблема в том, что файл паркета может не иметь расширения и кодек также может отличаться от файла к файлу. В Spark-scala есть способ сделать это?

Yayati Sule · Answer 1 · 09 мая 2019

Вы можете заранее получить имена файлов следующим образом:

improt org.apache.spark.sql.DataFrame
import scala.sys.process._

val fileNames: List[String] = "hdfs dfs -ls /path/to/files/on/hdfs".!!
                             .split("\n")
                             .filter(_.endsWith(".parquet"))
                             .map(_.split("\\s").last).toList

val df: DataFrame = spark.read.parquet(fileNames:_*)

spark в приведенном выше коде является объектом SparkSession.Этот код должен работать и для версий Spark 1.x, поскольку сигнатура метода для parquet() одинакова в версиях Spark 1.x и Spark 2.x.

Только для чтения паркетный файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Только для чтения паркетный файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов