Я перебираю эту статью: Оптимизация размещения устройства с обучением усилению , и я проверяю соответствующий код в python / grappler . Похоже, что отправной точкой для этого кода является graph_placer.py , который устанавливает модель RL для размещения устройства.
Я хочу посмотреть, что произойдет, когда я настрою политики оптимизации модели подкрепления. Согласно документу, в настоящее время он использует общий алгоритм градиента политики. Мне трудно найти механизм этого алгоритма в Grappler. Может ли кто-нибудь указать мне местоположение (номер строки и файл) этого кода и помочь мне объяснить, как он работает?