Как я должен смоделировать время ожидания повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстную проблему бандита? - PullRequest
0 голосов
/ 11 ноября 2019

Я хочу смоделировать TCP RTO как контекстную проблему бандита;если это невозможно, то проблема обучения подкреплению. Пожалуйста, помогите мне подумать о том, как определить контекст, вознаграждение, действие в этом сценарии.

Здесь я хочу рассмотреть пространство действия как набор дискретного времени. Например, {1 с, 2 с, 3 с, 4 с}. Я не уверен, но я думаю, что вознаграждение должно быть либо: 1) время, когда пакет отправлен, когда получено ACK для пакета, либо 2) +1, если ACK получен, и -1, если нет. Я понятия не имею, как определить контекст в этом случае, поскольку контекст должен быть iid

...