У меня есть 100 ТБ данных, которые не разделены или кластеризованы. Мне нужно прочитать эти данные и сохранить их в многораздельную таблицу. Сам запрос очень прост, это что-то вроде следующего:
select *
from `table_ref`
where id >= lower_bound and id <= upper_bound
Идея состоит в том, чтобы записать все 100 ТБ в секционированную таблицу. Я использую таблицу назначения со свойством раздела для достижения этой цели. Одна работа, чтобы сделать это тайм-аут после 6 часов. Я делаю каждую работу меньше и меньше диапазонов от 25 ТБ, 9 ТБ и, наконец, 6 ТБ, однако я все еще вижу, что ресурс превышает исключение. Обратите внимание, что этот запрос все равно должен будет выполнить полное сканирование таблицы, чтобы найти ключи в диапазонах. Нет способа отладки, если проблема заключается в размере записи или полном сканировании таблицы.
Есть ли лучший ресурс / инструмент, чтобы увидеть, что на самом деле происходит, чтобы я мог изменить свой подход, чтобы избежать исключения, превышающего ресурс?