Еще одним документом для создания списка из школы, основанной на значениях, является Входные выпуклые нейронные сети .Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях).Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях.Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.