Я использую scikit-learn для классификации данных по 2 различным меткам. После того как я выберу один из результатов моей классификации в качестве базового уровня, я хочу сравнить будущие результаты с этим базовым уровнем (в python). Как узнать, какие результаты являются улучшениями по сравнению с базовым результатом с доверительным интервалом 95%, если мой базовый результат представляет собой одно целочисленное значение?