SparkSQL - некоторые разделы появляются в HiveServer2, но не SparkSQL - PullRequest
0 голосов
/ 02 июля 2018

Внешняя таблица Hive указывает на файлы на S3, ddl включает разделы по выражению eod. Под папкой есть 5 подпапок, каждая с файлом внизу для различных разделов_даты. то есть

eod=20180602/fileA
eod=20180603/fileA
eod=20180604/fileA
eod=20180605/fileA
eod=20180606/fileA

Таблица восстановления Msck запущена на HiveServer2

выбор отдельного part_dt из таблицы на HiveServer2 (порт 10000) возвращает все 5 дат

Однако при выборе отдельного part_dt из таблицы tbl на SparkThriftServer (т. Е. SparkSQL, порт 10015) возвращаются только первые 2 даты.

Как это возможно?

Даже при запуске msck repair на SparkThriftServer расхождение сохраняется.

Схема файла одинакова для всех дат. (т.е. каждый файл имеет одинаковое количество / тип столбцов)

1 Ответ

0 голосов
/ 03 июля 2018

Решено, эти 8 затронутых таблиц ранее были кэшированы в sparksql (то есть cache table <table>). Как только я запустил uncache table <table>, все разделы снова выстроились в линию!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...