При чтении в файле ORC в Spark, если вы укажете столбец раздела в пути, этот столбец не будет включен в набор данных. Например, если у нас есть
val dfWithColumn = spark.read.orc("/some/path")
val dfWithoutColumn = spark.read.orc("/some/path/region_partition=1")
тогда dfWithColumn будет иметь столбец region_partition, а dfWithoutColumn - нет. Как я могу указать, что я хочу включить все столбцы, даже если они разделены?
Я использую Spark 2.2 на Scala.
EDIT: это повторно используемая программа Spark, которая принимает аргументы из командной строки; Я хочу, чтобы программа работала, даже если пользователь переходит в определенный раздел таблицы вместо всей таблицы. Таким образом, использование Dataset.filter не вариант.