Запрос Spark SQL возвращает выходные данные, хотя в таблице кустов недостаточно записей в столбце запроса - PullRequest
0 голосов
/ 17 февраля 2019

Я получил вывод из запроса Spark SQL, несмотря на то, что фактическая таблица кустов не содержит достаточного количества записей в запрашиваемом столбце.Таблица кустов разделена на целочисленный столбец date_nbr , который содержит такие значения, как 20181125 , 20181005 , по какой-то причине мне пришлось усечь таблицу ( Примечание: Iне удалял каталог с разделами в HDFS ) и перезагружал таблицу за неделю date_nbr = 20181202

После загрузки данных я запустил ниже запрос на куст и получил ожидаемый результат

SELECT DISTINCT date_nbr FROM transdb.temp date_nbr 20181202

, но Spark SQL не дает такой же вывод, как у куста

scala> spark.sql("SELECT DISTINCT date_nbr FROM transdb.temp").map(_.getAs[Int](0)).collect.toList
res9: List[Int] = List(20181125, 20181005, 20181202)

Я немного сбит с толку результатом spark sql.

...