Я сделал следующие действия:
- загружено в json как фрейм данных искры
- проанализированы данные из (5) столбцов этого кадра данных
- применил функцию к данным, извлеченным из этих 5 столбцов (сгруппированные непрерывные значения в 10 бинов по процентилям, хотя я не думаю, что детали этого вопроса)
- создал новый фрейм данных, используя spark.createDataFrame, содержащий все эти новые значения с 5 совершенно разными именами столбцов
- попытался выполнить полное внешнее соединение исходного кадра данных с новым кадром данных.
Поскольку все столбцы в моем синтезированном фрейме данных имеют имена, отличающиеся от имен столбцов в исходном фрейме данных, внешнее объединение должно быть таким же, как и простая конкатенация двух фреймов данных по оси столбцов.
Однако вместо этого я получаю эту ошибку:
AnalysisException: u'Detected implicit cartesian product for FULL OUTER join between logical plans\nUnion\n:- Project\n:
Как мне решить это? Я просто хочу объединить кадры данных по столбцам, как в https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html