Actor-criti c - это тип алгоритма градиента политики. Если вы не используете некоторую терминологию, отличную от той, к которой я привык.
В алгоритме градиента политики мы берем политику, параметризованную по некоторым параметрам, находим градиент политики на основе предпринятых действий и затем обновите параметры политики в направлении градиента.
Актер-критик c делает именно это.
В actor-criti c функция значения также рассчитывается и влияет на обновление. Но это все еще алгоритм градиента политики.