GCP Dataproc, потребляющий искры BigQuery - PullRequest
0 голосов
/ 07 января 2019

Я очень новичок в GCP Google Cloud Platform, поэтому я надеюсь, что мой вопрос не будет выглядеть так глупо.

Footstage:

Основная цель - собрать несколько таблиц расширений из BigQuery и применить несколько преобразований. Из-за размера таблиц я планирую использовать Dataproc, развертывающий сценарий Pyspark, в идеале я мог бы использовать sqlContext для применения нескольких запросов sql к DF (таблицам, полученным из BQ). Наконец, я мог бы легко перенести эту информацию в файл в хранилище данных.

Вопросы:

  • Могу ли я использовать import google.datalab.bigquery as bq в своем скрипте Pyspark?

  • Является ли эта предложенная схема наиболее эффективной или вместо этого я могу проверить любую другую? имейте в виду, что мне нужно создать много временных запросов, и именно поэтому я на Spark.

  • Я ожидаю использовать pandas и bq для чтения результатов запросов как pandas df, следуя этому примеру . Позже я мог бы использовать sc.parallelize от Spark, чтобы преобразовать панд df в искру df. Правильный ли этот подход?

мой сценарий

  • Обновление:

После беседы с @Tanvee, которая любезно ответит на этот вопрос, мы заключаем, что GCP требуется промежуточный этап выделения, когда вам нужно прочитать данные из DataStorage в ваш Dataproc. Вкратце, вашему скрипту spark или hadoop может потребоваться временное хранилище, в котором хранятся данные из таблицы, а затем переносятся в Spark.

Ссылки:

Большой соединитель запросов \ Развертывание

Большое спасибо

Ответы [ 2 ]

0 голосов
/ 15 мая 2019

Вы можете напрямую использовать следующие опции для подключения таблицы больших запросов от spark.

  1. Вы также можете использовать коннекторы spark-bigquery https://github.com/samelamin/spark-bigquery, чтобы напрямую выполнять запросы к dataproc с помощью spark.

  2. https://github.com/GoogleCloudPlatform/spark-bigquery-connector Это новый разъем, который находится в бета-версии. Это API источника данных spark для BigQuery, который прост в использовании.

Пожалуйста, обратитесь по следующей ссылке: Примеры Dataproc + BigQuery - есть ли в наличии?

0 голосов
/ 07 января 2019

Вам потребуется использовать BigQuery разъем для искры. В документации GCP есть несколько примеров здесь и здесь . Он создаст RDD, который вы сможете преобразовать в фрейм данных, а затем сможете выполнять все типичные преобразования. Надеюсь, это поможет.

...