Внешняя таблица Hive указывает на файлы на S3, ddl включает разделы по выражению eod. Под папкой есть 5 подпапок, каждая с файлом внизу для различных разделов_даты. то есть
eod=20180602/fileA
eod=20180603/fileA
eod=20180604/fileA
eod=20180605/fileA
eod=20180606/fileA
Таблица восстановления Msck запущена на HiveServer2
выбор отдельного part_dt из таблицы на HiveServer2 (порт 10000) возвращает все 5 дат
Однако при выборе отдельного part_dt из таблицы tbl на SparkThriftServer (т. Е. SparkSQL, порт 10015) возвращаются только первые 2 даты.
Как это возможно?
Даже при запуске msck repair на SparkThriftServer расхождение сохраняется.
Схема файла одинакова для всех дат. (т.е. каждый файл имеет одинаковое количество / тип столбцов)