Я получил набор данных с метками, которые я должен использовать для задачи классификации. Данные были разделены на обучающий набор из 6000 образцов и тестовый набор того же размера. Учебный набор содержит половину объектов, классифицированных как 0, и столько же, сколько 1.
Теперь проблема в том, что у столбцов нет имени, и я не понимаю, какими должны быть значения. Есть 6 категориальных переменных и 30 чисел c. Сначала я замечаю, что переменные Numberri c имеют действительно небольшую дисперсию (самая большая - $$ 10 ^ {- 3} $$, а самая маленькая - $$ 10 ^ {- 47} $$). Это может быть связано с тем, что переменные имеют уменьшенный масштаб. Кроме того, большинство данных центрировано по среднему значению с Q1 = Q2 = среднее = Q3, но тогда максимум намного больше, чем любое из этих значений.
Что я могу сделать при проведении исследовательского анализа? Каков будет подход для достижения хорошей классификации?