Как создать внешнюю таблицу в BigQuery с помощью Datapro c Pyspark - PullRequest
2 голосов
/ 26 февраля 2020

Мой пример использования включает создание внешней таблицы в Bigquery с использованием кода Pyspark. Источником данных является облачное хранилище Google, где хранятся данные JSON. Я читаю данные JSON во фрейм данных и хочу создать внешнюю таблицу Bigquery. На данный момент создается таблица, но она не является внешней.

df_view.write\
    .format("com.google.cloud.spark.bigquery")\
    .option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')\
    .option("temporaryGcsBucket","abcd-xml-abc-warehouse")\
    .save(mode='append',path='gs://xxxxxxxxx/')

PS - я использую разъем spark-bigquery для достижения своей цели.

Пожалуйста, дайте мне знать если кто-то сталкивался с той же проблемой.

1 Ответ

1 голос
/ 26 февраля 2020

В данный момент спарк-bigquery-коннектор не поддерживает запись во внешнюю таблицу. Пожалуйста, создайте проблему , и мы постараемся добавить ее в ближайшее время.

Конечно, вы можете сделать это в два этапа:

  • Записать файлы JSON в GCS.
  • Используйте API BigQuery для создания внешней таблицы.
...