У меня есть много large_tables (миллиарды строк), которые я хочу разместить на основе id_list (миллионы строк).Я использую хеш-таблицу, чтобы ускорить ее:
data subset1;
set large_table1;
if _n_ eq 1 then do;
declare hash ht(dataset:"id_list");
ht.definekey('id');
ht.definedone();
end;
if ht.check() eq 0 then do; output; end;
run;
Как я могу использовать хеш-таблицу id_list?Воссоздание его в каждом запросе подмножества тратит слишком много времени.
Обновление: Как показано в ответах, в настоящее время нет обходного пути для создания постоянных хеш-таблиц в SAS.Я тестировал эмпирически два менее оптимальных варианта с 12-миллионными строками id_list и 1,5 млрд. Строк large_table.Использование формата вместо хеш-таблицы заняло почти вдвое больше времени (40 минут против 23 минут).Это уменьшает затраты на воссоздание хеш-таблицы на каждом шаге данных, поэтому я пока просто сделаю это.