Я пытаюсь стандартизировать имена заголовков моих DataFrames с учетом справочной таблицы.
Моя справочная таблица - это DataFrame с переменными в строках, а также стандартные и все возможные имена вариантов в виде столбцов:
+-------------+---------+---------+
|Standard_name|Variant_1|Variant_2|
+-------------+---------+---------+
| Pressure| Press| Press_1|
| Speed| Speed_| Rate|
+-------------+---------+---------+
Скажем, у меня есть DataFrame данных с этими именами столбцов:
['Pressure', 'Rate', 'Altitude']
Я хочу найти каждое из этих имен переменных в моем ссылочном DataFrame, вернуть соответствующее Standard_name, если оно существует, или сохранить исходную переменную, если на нее еще нет ссылок в таблице.
Таким образом, ожидаемый результат фиктивного примера выше должен быть:
[Pressure, 'Speed', Altitude]
Это легко сделать в обычных Python-пандах, но я понятия не имею, как это сделать в Spark, где вы не должныдумать в терминах индексов строк.
Большое спасибо заранее за помощь.