Я использую pandas_udf, чтобы применить модель машинного обучения к моему искровому кластеру, и меня интересует предварительное определение минимального количества записей, отправляемых с помощью стрелки в UDF.
Я следовал учебному пособию по базам данных для большей части UDF ... https://docs.databricks.com/applications/deep-learning/inference/resnet-model-inference-tensorflow.html
Из этого руководства я установил максимальный размер пакета и включенную стрелку на конференции спарк. Я могу легко установить максимальный размер пакета, однако мне было интересно, есть ли подобный метод для установки минимального размера пакета, который будет обрабатывать UDF?
spark = SparkSession.builder.appName('App').getOrCreate()
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
spark.conf.set('spark.sql.execution.arrow.maxRecordsPerBatch', PyArrowBatchSize)
Я использую версию 2.4.3 и python 3.6.0.