Как вернуть результаты из pispark dataproc в блокнот jupyter - PullRequest
1 голос
/ 17 октября 2019

Я пытаюсь запустить pyspark в облаке Google / dataproc. Я могу отправить свою работу в кластер и получить результаты в кластере. Тем не менее, я хочу получить результаты обратно в блокнот Jupyter в качестве кадра данных. Мой код для отправки задания pyspark выглядит следующим образом:

Это очень стандартная функция от Google. Можете ли вы помочь мне изменить это, чтобы результаты работы также возвращались в jupyter?

Это код, который я запускаю на Jupyter для подключения к кластеру pyspark на dataproc

submit_pyspark_job(dataproc_cluster_client, project, region, cluster_name, bucket_name,
                       filename):

   """Submit the Pyspark job to the cluster (assumes `filename` was uploaded
    to `bucket_name."""
    job_details = {
        'placement': {

            'cluster_name': cluster_name
        },
        'pyspark_job': {
            'main_python_file_uri': 'gs://{}/{}'.format(bucket_name, filename),
            'jar_file_uris':['gs://hadoop-lib/bigquery/bigquery-connector-hadoop2-0.13.9.jar']
        }
    }

    result = dataproc_cluster_client.submit_job(
        project_id=project, region=region, job=job_details)
    job_id = result.reference.job_id
    print('Submitted job ID {}.'.format(job_id))
    return job_id

ThisКод работает хорошо и отправляет мои работы в кластеры Google. Теперь я хочу, чтобы результаты возвращались к jupyter как к информационному фрейму, которым я позже смогу манипулировать.

...