Я пытаюсь преобразовать весь df в один векторный столбец, используя
df_vec = vectorAssembler.transform(df.drop('col200'))
Я получаю эту ошибку:
File "/usr/hdp/current/spark2-client/python/pyspark/sql/utils.py", line 69, in deco
raise AnalysisException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.AnalysisException: 'Cannot resolve column name "col200" among (col1, col2..
Я просмотрел Интернет и обнаружил, что ошибка может быть вызвана некоторыми пробелами в заголовках столбцов. Проблема в том, что там около 1600 столбцов, и довольно сложно проверить каждую из них, особенно на наличие пробелов. Как мне подойти к этому? Это DF с 800000 строк, к вашему сведению.
выполнив df.printSchema (), я не вижу пробелов. По крайней мере, не ведущий. Я уверен, что ни одно из имен столбцов не должно содержать пробелов между ними.
На данный момент я полностью заблокирован! Любая помощь будет принята с благодарностью.