Да, вы правы. Обычно вы определяете словарь, содержащий карту между целыми числами и каждым действием, которое может выполнить ваш агент. Вы можете видеть, что в функции n_actions используется именно для выборки индекса случайного действия, когда вы не выбираете оптимальный.