Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понимал алгоритм, однако, кажется, нет четких критериев сходимости, которые математически обоснованы.
Большинство источников рекомендуют повторять несколько раз (например, N = 1000), в то время как другие говорят, что сходимость достигается, когда все пары состояний и действий (а, а) посещаются бесконечно часто. Но вопрос здесь в том, сколько стоит бесконечно часто. Каков наилучший критерий для того, кто хочет решить алгоритм вручную?
Я был бы признателен, если бы кто-нибудь смог рассказать мне об этом. Я также был бы признателен за любые статьи на этот счет.
С уважением.