Сохраните пандас датафрейм в PySpark - PullRequest
0 голосов
/ 04 января 2019

У меня есть сценарий в PySpark, где я должен сделать некоторые вычисления на фрейме данных pandas на рабочем уровне.Ниже приведен фрагмент кода

def func1(x):
  res_list = []
  for i in x:
    if i
    res_list.append(i)
  pandasdf = pd.DataFrame(res_list,columns=sch)
  <computation>
  <save pandasdf to HDFS>


df = spark.read.csv('/path/')
sch = df.schema.names
rdd = df.rdd.repartition(5)
rdd.foreachPartition(func1)

Я запускаю это в режиме кластера.Я хочу сохранить этот фрейм данных Pandas в HDFS, я пытался преобразовать фрейм данных Pandas в фрейм данных spark, но в рабочем узле невозможно конвертировать в фрейм данных spark.Может кто-нибудь помочь мне, как сохранить этот пандас данных в сторону функции в HDFS

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...