Есть ли способ установить минимальный размер пакета для pandas_udf в PySpark? - PullRequest
0 голосов
/ 22 мая 2019

Я использую pandas_udf, чтобы применить модель машинного обучения к моему искровому кластеру, и меня интересует предварительное определение минимального количества записей, отправляемых с помощью стрелки в UDF.

Я следовал учебному пособию по базам данных для большей части UDF ... https://docs.databricks.com/applications/deep-learning/inference/resnet-model-inference-tensorflow.html

Из этого руководства я установил максимальный размер пакета и включенную стрелку на конференции спарк. Я могу легко установить максимальный размер пакета, однако мне было интересно, есть ли подобный метод для установки минимального размера пакета, который будет обрабатывать UDF?

spark = SparkSession.builder.appName('App').getOrCreate()

spark.conf.set("spark.sql.execution.arrow.enabled", "true")

spark.conf.set('spark.sql.execution.arrow.maxRecordsPerBatch', PyArrowBatchSize)

Я использую версию 2.4.3 и python 3.6.0.

...