Question

Я очень новичок в GCP Google Cloud Platform, поэтому я надеюсь, что мой вопрос не будет выглядеть так глупо.

Footstage:

Основная цель - собрать несколько таблиц расширений из BigQuery и применить несколько преобразований. Из-за размера таблиц я планирую использовать Dataproc, развертывающий сценарий Pyspark, в идеале я мог бы использовать sqlContext для применения нескольких запросов sql к DF (таблицам, полученным из BQ). Наконец, я мог бы легко перенести эту информацию в файл в хранилище данных.

Вопросы:

Могу ли я использовать import google.datalab.bigquery as bq в своем скрипте Pyspark?
Является ли эта предложенная схема наиболее эффективной или вместо этого я могу проверить любую другую? имейте в виду, что мне нужно создать много временных запросов, и именно поэтому я на Spark.
Я ожидаю использовать pandas и bq для чтения результатов запросов как pandas df, следуя этому примеру . Позже я мог бы использовать sc.parallelize от Spark, чтобы преобразовать панд df в искру df. Правильный ли этот подход?

мой сценарий

Обновление:

После беседы с @Tanvee, которая любезно ответит на этот вопрос, мы заключаем, что GCP требуется промежуточный этап выделения, когда вам нужно прочитать данные из DataStorage в ваш Dataproc. Вкратце, вашему скрипту spark или hadoop может потребоваться временное хранилище, в котором хранятся данные из таблицы, а затем переносятся в Spark.

Ссылки:

Большой соединитель запросов \ Развертывание

Большое спасибо

Sarang Shinde · Answer 1 · 15 мая 2019

Вы можете напрямую использовать следующие опции для подключения таблицы больших запросов от spark.

Вы также можете использовать коннекторы spark-bigquery https://github.com/samelamin/spark-bigquery, чтобы напрямую выполнять запросы к dataproc с помощью spark.
https://github.com/GoogleCloudPlatform/spark-bigquery-connector Это новый разъем, который находится в бета-версии. Это API источника данных spark для BigQuery, который прост в использовании.

Пожалуйста, обратитесь по следующей ссылке: Примеры Dataproc + BigQuery - есть ли в наличии?

Tanveer Uddin · Answer 2 · 07 января 2019

Вам потребуется использовать BigQuery разъем для искры. В документации GCP есть несколько примеров здесь и здесь . Он создаст RDD, который вы сможете преобразовать в фрейм данных, а затем сможете выполнять все типичные преобразования. Надеюсь, это поможет.

GCP Dataproc, потребляющий искры BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

GCP Dataproc, потребляющий искры BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы