Question

Я хочу смоделировать TCP RTO как контекстную проблему бандита;если это невозможно, то проблема обучения подкреплению. Пожалуйста, помогите мне подумать о том, как определить контекст, вознаграждение, действие в этом сценарии.

Здесь я хочу рассмотреть пространство действия как набор дискретного времени. Например, {1 с, 2 с, 3 с, 4 с}. Я не уверен, но я думаю, что вознаграждение должно быть либо: 1) время, когда пакет отправлен, когда получено ACK для пакета, либо 2) +1, если ACK получен, и -1, если нет. Я понятия не имею, как определить контекст в этом случае, поскольку контекст должен быть iid

Как я должен смоделировать время ожидания повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстную проблему бандита?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как я должен смоделировать время ожидания повторной передачи TCP (RTO) как проблему обучения с подкреплением или контекстную проблему бандита?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы