Я пытаюсь запустить pyspark в облаке Google / dataproc. Я могу отправить свою работу в кластер и получить результаты в кластере. Тем не менее, я хочу получить результаты обратно в блокнот Jupyter в качестве кадра данных. Мой код для отправки задания pyspark выглядит следующим образом:
Это очень стандартная функция от Google. Можете ли вы помочь мне изменить это, чтобы результаты работы также возвращались в jupyter?
Это код, который я запускаю на Jupyter для подключения к кластеру pyspark на dataproc
submit_pyspark_job(dataproc_cluster_client, project, region, cluster_name, bucket_name,
filename):
"""Submit the Pyspark job to the cluster (assumes `filename` was uploaded
to `bucket_name."""
job_details = {
'placement': {
'cluster_name': cluster_name
},
'pyspark_job': {
'main_python_file_uri': 'gs://{}/{}'.format(bucket_name, filename),
'jar_file_uris':['gs://hadoop-lib/bigquery/bigquery-connector-hadoop2-0.13.9.jar']
}
}
result = dataproc_cluster_client.submit_job(
project_id=project, region=region, job=job_details)
job_id = result.reference.job_id
print('Submitted job ID {}.'.format(job_id))
return job_id
ThisКод работает хорошо и отправляет мои работы в кластеры Google. Теперь я хочу, чтобы результаты возвращались к jupyter как к информационному фрейму, которым я позже смогу манипулировать.