Система рекомендаций работает в режиме реального времени. Он может предложить 3 продукта, скажем, x, y, z. Но, по сегодняшним данным, он все время выдает только продукт x. Что нужно подправить. Любое решение с точки зрения обучения подкреплению?