Не могу прочитать из BigQuery - PullRequest
0 голосов
/ 08 января 2020

Я пытаюсь прочитать простую таблицу BigQuery.

Это зависает:

WARNING:root:Dataset thijs-dev:temp_dataset_b234824381e04e1324234237724b485f95c does not exist so we will create it as temporary with location=EU

Для этого я использую следующий скрипт:

python main.py \
  --runner DirectRunner \
  --project thijs-dev \
  --temp_location gs://thijs/tmp/ \
  --job_name thijs-dev-load \
  --save_main_session

И полный скрипт Python:

import apache_beam as beam

import logging
import argparse


def run(argv=None):
    parser = argparse.ArgumentParser()
    known_args, pipeline_args = parser.parse_known_args(argv)


    with beam.Pipeline(argv=pipeline_args) as p:
        """ Read all data from source_table """
        source_data = (p | beam.io.Read(beam.io.BigQuerySource(query="select * from `thijs-dev.metathijs.thijs_locations`", use_standard_sql=True)))


if __name__ == '__main__':
    print("Start")
    logging.getLogger().setLevel(logging.INFO)
    run()

1 Ответ

0 голосов
/ 08 января 2020

Оказывается, поток данных очень медленный. Обработка 26 МБ данных занимает полчаса, но все же работает.

...