Вы можете сделать это, поделившись некоторыми (или всеми) слоями своей сети. Однако, если вы это сделаете, вы предполагаете, что существует общее представление состояния (выход промежуточного уровня), которое является оптимальным w.r.t. и то и другое. Это очень сильное предположение, и обычно оно не выполняется. Было показано, что он работает для обучения по изображению, когда вы помещаете (например) автоэнкодер сверху как в сеть актера, так и в сеть критиков и обучаете ее, используя функцию их суммы потерь.
Это упоминается в бумаге PPO (непосредственно перед уравнением (9)). Однако они просто говорят, что используют общие слои только для обучения играм Atari, а не для задач непрерывного управления. Они не говорят почему, но это может быть объяснено, как я сказал выше: игры Atari имеют низкоразмерное представление состояний, которое является оптимальным как для актера, так и для критика (например, закодированное изображение, усвоенное автоэнкодером), тогда как для При непрерывном управлении вы обычно переходите непосредственно в низкоразмерное состояние (координаты, скорости, ...).
A3C, который вы упомянули, также использовался в основном для игр (думаю, Doom).
Исходя из моего опыта, слои управления для совместного использования никогда не работали, если состояние уже компактно.