У меня есть функция с именем "inside".Я хочу применить эту функцию к фрейму данных pyspark.Для этого я вызываю метод "foreachPartition (inside)" на созданном мною кадре.Функция "inside" нуждается в значениях кадра данных.
Фрейм данных выглядит следующим образом:
>>> small_df
DataFrame[lon: double, lat: double, t: bigint]
Код выглядит следующим образом:
def inside(iterator):
row=iterator
x=row.lon
y=row.lat
i=row.t
#do more stuff
small=pliades.iloc[0:20000,:] #take sample of rows from big dataset
small_df=sqlContext.createDataFrame(small) #create dataframe
test=small_df.foreachPartition(inside)
Мой вопрос: как получить x, y, я могу получить значенияпервого (lon), второго (lat) и третьего (t) столбцов кадра данных соответственно?
Я попытался также сделать это с row.lon, row.select, рассматривая его как список, но не могне получить требуемый результат.