Расположение алгоритма градиента политики в python / grappler для размещения устройства в источнике Tensorflow? - PullRequest
0 голосов
/ 19 января 2019

Я перебираю эту статью: Оптимизация размещения устройства с обучением усилению , и я проверяю соответствующий код в python / grappler . Похоже, что отправной точкой для этого кода является graph_placer.py , который устанавливает модель RL для размещения устройства.

Я хочу посмотреть, что произойдет, когда я настрою политики оптимизации модели подкрепления. Согласно документу, в настоящее время он использует общий алгоритм градиента политики. Мне трудно найти механизм этого алгоритма в Grappler. Может ли кто-нибудь указать мне местоположение (номер строки и файл) этого кода и помочь мне объяснить, как он работает?

...