Я бы порекомендовал вам загружать оба файла паркета в Spark в виде фреймов данных и использовать преобразования для соответствия схемам фреймов данных.Исходя из того, что вы описываете, звучит так, будто вы хотите преобразовать Parquet A (таблицу большего размера) так, чтобы он соответствовал схеме Parquet B.Функция столбца «drop» - простой способ сделать это [документы] .
Вот пример, который я написал, где паркет A имеет 5 столбцов, а паркет B - 4 столбцов.
Отображение схем двух таблиц (фреймов данных):
Удаление дополнительного столбца и создание объединения двух таблиц (фреймов данных):