Я использую bigquery-spark-connector для чтения из BigQuer, который использует BigQuery Storage API. Мой сценарий (автоматически) запрашивает несколько разделов из API хранилища BigQuery, но я получаю предупреждение:
WARN com.google.cloud.spark.bigquery.direct.DirectBigQueryRelation: Запрошено 2 раздела, но только 1 получено от BigQueryAPI хранилища
Работа Spark занимает очень много времени, и я думаю, что это потому, что она не читает через несколько разделов. Как я могу убедиться, что BigQuery Storage API дает мне все разделы, которые я запрашиваю? Что здесь происходит, почему он дает мне только один раздел, независимо от того, сколько я запрашиваю?
Сначала я создаю SparkSession:
SparkSession spark = SparkSession.builder()
.appName("XXX")
.getOrCreate();
Этот код вызывает WARN:
Dataset<Row> data = spark.read()
.format("bigquery")
.option("table","project.dataset.table")
.load()
.cache();