У меня проблема с улучшением модели классификации на основе правил с простым правилом, согласно которому метка - это просто значение определенной функции (правило копирования значения).
Это правило на практике дает правильный результат 65-70% времени.
По сравнению с моими примерами имеется большое количество ярлыков (390 ярлыков из 1200 примеров).
Я добавил дополнительные функции для улучшения модели классификации, но почему-то я не знаю, как заставить модель учиться этому простому правилу. У меня точность в лучшем случае составляет всего 40-50%.
Если модель может выучить это простое правило, то я добавляю к базовой производительности все, что мы можем получить из дополнительных сигналов.
Я использую классификационный подход, который, по моему мнению, не способен выучить правило копирования значений, что для меня является скорее проблемой регрессии.
Даже с одной лишь регрессией, с несколькими примерами и количеством ярлыков, трудно научить правилу.
Есть идеи как это решить?
Я пробовал с комбинацией моделей и настройкой гиперпараметра, но не повезло. Ни один классификатор ML или их комбинация не могут превышать 45-50% точности в тестовом наборе.