Как было предложено в stackoverflow , передача нескольких входов в массив (numpy или python не имеет значения) работает лучше, чем для l oop. Улучшение производительности составило 25%. Не забудьте установить номер потока:
tf.config.threading.set_intra_op_parallelism_threads(num_cores)
tf.config.threading.set_inter_op_parallelism_threads(num_cores)
Однако следует учитывать, что тензор потока будет использовать количество потоков, в разы больше памяти.