Существует 2 типа решений, которые вы можете принять.
Первым было бы создать генератор данных, который собирает пакеты, которые выбирают сбалансированное количество выборок. Например, вы можете построить генератор Python, который генерирует партии из 32 выборок, так что 16 случайным образом выбираются из набора «да», а 16 случайным образом выбираются из набора «нет». Это будет означать, что образцы «да» видятся моделью гораздо чаще, но вы не отбрасываете данные как таковые.
Второй класс решений - это использование весов в вашей метрике. то есть вы можете подать массив весов выборки в операцию подгонки так, чтобы у выборок да вес был намного больше для выборок «да», чем для выборок «нет».
Вы также можете реализовать взвешивание с помощью пользовательской метрики.
Я бы начал с подхода написания генератора данных.