Query Hive стол в спарк 2.2.0 - PullRequest
2 голосов
/ 29 июня 2019

У меня есть таблица кустов (скажем, table1) в формате файла avro с 1900 столбцами.Когда я запрашиваю таблицу в кусте - я могу получить данные, но когда я запрашиваю ту же таблицу в spark sql, я получаю потерянное соединение с клиентом metastore.Попытка переподключения

Я также запросил другую таблицу кустов (скажем, table2) в формате файла avro со 130 столбцами, он выбирает данные как в кустах, так и в искре.

Я вижу, что могу видеть данныев расположении hdfs таблицы 2, но я не вижу никаких данных в расположении таблицы hdfs (но это данные, когда я запрашиваю только в улье)

Ответы [ 2 ]

0 голосов
/ 01 июля 2019
  1. Сплит расскажет вам о количестве картографов в работе MR.
  2. Не отображается точное местоположение, из которого были получены данные.
0 голосов
/ 29 июня 2019

Ниже вы можете проверить, где хранятся данные для Таблицы 1 в HDFS.

Для Таблицы 1. Вы можете проверить расположение данных в HDFS, выполнив запрос SELECT с условиями WHERE в Hive с MapReduce в качестве механизма выполнения. После завершения задания вы можете проверить журнал задания карты приложения YARN (особенно для текста " Processing file ") и найти, откуда были взяты файлы входных данных.

Кроме того, попробуйте проверить расположение данных для обеих таблиц, представленных в HiveMetastore, запустив «SHOW CREATE TABLE;» в улье для обеих таблиц в улье. Исходя из результата, попробуйте проверить детали "LOCATION".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...