Создайте новую таблицу из двух существующих таблиц A и B, A имеет данные истории за 1 год, а B имеет данные идентификаторов.Мне нужно объединить эти две таблицы с помощью Spark, где производительность хорошая, а также зациклить данные для каждого дня или месяца, поскольку business_day - это раздел.Я не могу рассматривать целые таблицы, поскольку каждый рабочий день содержит 30 миллионов.
Таблица A - содержит n столбцов, таких как ID, Business_Day, Имя
Таблица B - содержит n столбцов -ID, ID_Code
Таблица A должна присоединиться к таблице B с помощью ID=ID
и получить ID_Code вместе с другими столбцами A
insert into output_table
select ID, ID_CODE,Business_Day, Name
from A,B where
A.ID=B.ID
Я не уверен, как написать цикл For для вышеупомянутого,Скрипт вставки работает, но для одного дня это занимает 2 часа, и мне нужно вручную изменить рабочий день на год, что невозможно, но цикл и другие шаги по производительности помогут ему работать намного быстрее.