Почему числа картографов в Hive так сильно различаются при перезаписи вставки - PullRequest
1 голос
/ 13 апреля 2019

У меня есть таблица с поддержкой транзакций под названием t1, и я использую Tez в качестве механизма выполнения.

Я не понимаю, почему существует огромная разница в плане запросов для этих двух запросов.Что я должен сделать, чтобы настроить этот сценарий?

  1. выберите t.id, t.id_type из t limit 20;

-> Генерация 10 задач карты.

вставить таблицу перезаписи t2, выберите t.id в качестве идентификатора, t.id_type в качестве id_type из предела t; 20;

-> Генерация 1100 задач карты.

1 Ответ

1 голос
/ 13 апреля 2019

Используйте команду EXPLAIN EXTENDED , она предоставит информацию о том, что именно делается, и покажет файлы, которые читаются.Сравните вывод команды для обоих запросов.Возможно, он читает разные файлы или делает что-то еще.

EXPLAIN EXTENDED select t.id, t.id_type from t limit 20;

против

EXPLAIN EXTENDED insert overwrite table t2 select t.id as id, t.id_type as id_type from t limit 20;
...