Как указать таблицу BigQuery в качестве источника ввода для оператора воздушного потока AutoMLImportDataOperator? - PullRequest
1 голос
/ 25 марта 2020

В соответствии с документацией, доступной в документации по воздушному потоку здесь , GCS может быть сконфигурирован как источник ввода для AutoMLImportDataOperator. Тем не менее, мне любопытно, как можно использовать таблицу BQ, поскольку в самих таблицах AutoML есть функциональные возможности. Любые предложения будут оценены.

Ответы [ 2 ]

1 голос
/ 27 марта 2020

AutoML Tables поддерживает и BigQuery, и GCS в качестве источников. Вы можете использовать формат BigQuery URI для указания местоположения ваших данных тренировки, и он должен соответствовать следующему формату: bq://<project_id>.<dataset_id>.<table_id>

В DAG Airflow вы можете использовать AutoMLImportDataOperator с input_config, как показано ниже

IMPORT_INPUT_CONFIG = {"bigquery_source": {"input_uri": 'bq://{}.{}.{}'.format(project_id, bq_dataset, bq_table)}}

import_dataset_task = AutoMLImportDataOperator(
        task_id="import_dataset_task",
        dataset_id=dataset_id,
        location=GCP_AUTOML_LOCATION,
        input_config=IMPORT_INPUT_CONFIG,
)

Более подробный пример с GCS в качестве источника можно найти в примере «Воздушный поток» DAG здесь . Вы должны обновить IMPORT_INPUT_CONFIG переменную с помощью BigQiuery URI.

0 голосов
/ 26 марта 2020

В настоящий момент Airflow в GCP все еще находится в предварительном выпуске [0], и, насколько я понимаю, эта функция в операторах Airflow [1] до сих пор отсутствует. Вы можете использовать оператор bigquery_to_gcs [2] для перемещения ваших данных BQ в GCS для последующего использования AutoMLImportDataOperator. В качестве альтернативы вы можете попробовать создать свой собственный оператор [3]

[0] https://cloud.google.com/automl-tables/docs/integrations

[1] https://airflow.readthedocs.io/en/latest/howto/operator/gcp/automl.html

[2] https://airflow.apache.org/docs/stable/_modules/airflow/contrib/operators/bigquery_to_gcs.html

[3] https://airflow.readthedocs.io/en/latest/howto/custom-operator.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...