Я очень новичок в GCP Google Cloud Platform, поэтому я надеюсь, что мой вопрос не будет выглядеть так глупо.
Footstage:
Основная цель - собрать несколько таблиц расширений из BigQuery и применить несколько преобразований. Из-за размера таблиц я планирую использовать Dataproc, развертывающий сценарий Pyspark, в идеале я мог бы использовать sqlContext для применения нескольких запросов sql к DF (таблицам, полученным из BQ). Наконец, я мог бы легко перенести эту информацию в файл в хранилище данных.
Вопросы:
Могу ли я использовать import google.datalab.bigquery as bq
в своем скрипте Pyspark?
Является ли эта предложенная схема наиболее эффективной или вместо этого я могу проверить любую другую? имейте в виду, что мне нужно создать много временных запросов, и именно поэтому я на Spark.
Я ожидаю использовать pandas и bq для чтения результатов запросов как pandas df, следуя этому примеру . Позже я мог бы использовать sc.parallelize
от Spark, чтобы преобразовать панд df в искру df. Правильный ли этот подход?
мой сценарий
После беседы с @Tanvee, которая любезно ответит на этот вопрос, мы заключаем, что GCP требуется промежуточный этап выделения, когда вам нужно прочитать данные из DataStorage в ваш Dataproc. Вкратце, вашему скрипту spark или hadoop может потребоваться временное хранилище, в котором хранятся данные из таблицы, а затем переносятся в Spark.
Ссылки:
Большой соединитель запросов \
Развертывание
Большое спасибо