Удалить таблицу BigQuery из Pyspark - PullRequest
0 голосов
/ 29 июня 2019

Я работаю над сценарием, чтобы читать данные из mongodb, анализировать данные в spark и записывать их в Bigquery.У меня есть случай, когда на основе коллекции мне нужно обновить / заново создать таблицу больших запросов.Но я не могу найти точный API для удаления таблицы больших запросов

Я использую библиотеку https://github.com/samelamin/spark-bigquery для записи / добавления данных в большие запросы, но не смог найти достаточно документации для повторного созданиястол.Также заглянул в библиотеку взаимодействия с большими данными Google https://github.com/GoogleCloudPlatform/bigdata-interop, но не смог найти точный API.

1 Ответ

1 голос
/ 29 июня 2019

После проверки кода вам следует попробовать параметр WriteDisposition, который передается в файл BigQueryDataFrame.scala # L35 .Согласно другим библиотекам ( Python , Apache Beam ), если вы используете WriteTruncate опция , действие должно перезаписать содержимое таблицы: «Если таблица уже существует, BigQuery перезаписывает данные таблицы.»

Так что код, подобный этому, должен работать (взято из https://github.com/samelamin/spark-bigquery#saving-dataframe-using-pyspark):

# Load into a table or table partition
bqDF = bigquery.BigQueryDataFrame(df._jdf)
bqDF.saveAsBigQueryTable(
    "{0}:{1}.{2}".format(BQ_PROJECT_ID, DATASET_ID, TABLE_NAME),
    False, # Day paritioned when created
    0,     # Partition expired when created
    bigquery.__getattr__("package$WriteDisposition$").__getattr__("MODULE$").WRITE_TRUNCATE(),
    bigquery.__getattr__("package$CreateDisposition$").__getattr__("MODULE$").CREATE_IF_NEEDED(),
)
* 1017 Github * Дайте нам знать, помогло ли это.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...