Я не уверен, возможно ли это в Tensorflow, и я обеспокоен тем, что мне, возможно, придется переключиться на pytorch.
В принципе, у меня есть этот парень: self.policy_conv1 =
tf.layers.conv2d(inputs=self.policy_s, filters=16, kernel_size=(8,8),strides=(4,4), padding = 'valid',activation=tf.nn.relu, kernel_initializer=tf.glorot_uniform_initializer, bias_initializer = tf.glorot_uniform_initializer)
Кого я пытаюсь скопировать в этого парня, каждые 100 итераций обучения или около того:
self.eval_conv1 = tf.layers.conv2d(inputs=self.s, filters=16, kernel_size=(8,8),strides=(4,4), padding = 'valid', activation=tf.nn.relu, kernel_initializer=tf.glorot_uniform_initializer, bias_initializer = tf.glorot_uniform_initializer)
TF.Assign не кажется правильным инструментом, а следующее не 'Кажется, что это не работает:
self.policy_conv1 = tf.stop_gradient(tf.identity(self.eval_conv1))
По сути, я хочу скопировать слой eval conv в слой conv политики, а не связывать их каждый раз, когда граф выполняет одну или другую переменную (чтопроисходит с фрагментом идентификатора выше).Если кто-то может указать мне нужный код, я был бы признателен.