Я использую Weka (GUI), чтобы оценить, улучшит ли добавление определенных атрибутов в набор данных результаты для проблемы двоичного типа классификации. К сожалению, существует около 50 ДА классифицированных инцидентов и 3000 НЕТ. Я использую SMOTE для перевыбора данных меньшинства (YES), чтобы получить более сбалансированный набор данных. Я перепробовал все виды значений для процентного параметра фильтра SMOTE. Наиболее эффективным было процентное значение, которое синтезировалось около 3000 ДА, чтобы иметь идеально сбалансированный набор данных ... Теперь вот проблема. Я действительно боюсь, что переусердствую здесь, и я хочу убедиться, что рассмотрю это. Вот именно то, что я делаю:
- На вкладке предварительной обработки я выбираю фильтр SMOTE и применяю его с процентом, соответствующим созданию набора данных с соотношением 1: 1
- Я перехожу на вкладку классификации и нажимаю начать с перекрестной проверки, установленной с 10 сгибами
- Он запускает и печатает матрицу путаницы, которая дает невероятные (невероятные) результаты около 0,988 средней классификации
Я не совсем понимаю, что происходит, когда я нажимаю кнопку "Пуск" на вкладке "Классификация". Он создает модель, а затем проверяет ее на 10% данных, которые он пропускает, верно? Но как я могу узнать, насколько хорошо он будет работать с реальным набором данных, так как ДА так мало? Пожалуйста, четко опишите шаги, которые мне нужно предпринять для создания отдельного набора данных тестирования, если это то, что мне нужно сделать, потому что я не могу найти, как это сделать в weka GUI онлайн. Спасибо от этого weka noob.