Как создать собственную среду, используя тренажерный зал OpenAI для обучения с подкреплением - PullRequest
0 голосов
/ 01 июня 2019

Я новичок в изучении подкрепления, работаю над проектом колледжа. Проект связан с оптимизацией мощности оборудования x86. Я использую проприетарное программное обеспечение в дистрибутиве Linux (16.04). Цель состоит в том, чтобы использовать усиленное обучение и оптимизировать возможности Системы (сохраняя снижение производительности программного обеспечения как можно ниже). Запатентованное программное обеспечение представляет собой сотовую сеть.

Как мы уже знаем, основными функциональными блоками обучения Усилению являются Агент и Среда . Основная идея заключается в использовании сотовой сети, работающей на аппаратном обеспечении x86, в качестве среды для RL. Эта среда взаимодействует с агентом, реализующим RL, используя состояние, действия и вознаграждение.

Из прочтения различных материалов я понял, что мне нужно сделать свое программное обеспечение в виде пользовательской среды, из которой я могу получить функции state. Функциями state являются KPI прикладного уровня, такие как задержка и пропускная способность. Action пробел может включать инструкции для Linux по изменению питания (я могу использовать некоторый предопределенный набор параметров питания). Я не определился с функцией вознаграждения.

Я прочитал этот пост и решил, что мне следует использовать тренажерный зал OpenAI для создания своей пользовательской среды.

Я сомневаюсь, что использование тренажерного зала OpenAI для создания пользовательских сред (для такого типа настройки) является правильным. Я иду в правильном направлении (или) есть ли альтернативные / лучшие инструменты для создания пользовательской среды. Любой учебник или направление для создания этой пользовательской среды приветствуется.

...