df = spark.sql('SELECT col_name FROM table_name')
df.rdd
# вы можете сохранить его, выполнить преобразования и т. Д.
df.rdd
возвращает содержимое в виде pyspark.RDD
строки.
Затем вы можете отобразить на этой RDD
Строку, преобразовав каждую Строку в numpy
вектор. Я не могу быть более конкретным в отношении преобразования, так как не знаю, что представляет ваш вектор с предоставленной информацией.
Примечание 1 : df
- это переменная, определяющая наш Dataframe.
Примечание 2 : эта функция доступна с версии Spark 1.3