Я пытаюсь решить задачу машинного обучения, но столкнулся с некоторыми проблемами. Любые советы будут с благодарностью. Один из моих вопросов заключается в том, как создать матрицу корреляции для 2-х фреймов данных (данных для 2-х меток) разных размеров, чтобы посмотреть, сможете ли вы объединить их в один.
Вот весь текст задания
Этот набор данных состоит из 1100 выборок по 30 объектов в каждом. Первый столбец - это идентификатор образца. Второй столбец в наборе данных представляет метку. Есть 4 возможных значения для меток. Остальные столбцы являются числовыми элементами.
Обратите внимание, что классы не сбалансированы: некоторые ярлыки встречаются чаще, чем другие. Вам нужно решить, принять ли это во внимание, и если да, то как.
Сравните производительность машины опорных векторов (реализованной sklearn.svm.LinearSVC) с производительностью RandomForest (реализованной sklearn.ensemble.ExtraTreesClassifier). Попробуйте оптимизировать параметры обоих алгоритмов и определить, какой из них лучше всего подходит для этого набора данных. В конце анализа вы должны были выбрать алгоритм и его оптимальный набор параметров.
Я попытался создать матрицу корреляции для строк с метками с меньшим количеством элементов, но я не уверен, что это надежно
Я попытался создать два новых кадра данных из строк с метками 1 и 2. Для каждой из этих двух меток есть 100-150 записей, по сравнению с 400 для меток 0 и 3. Я хотел проверить, есть ли высокая корреляция между данными, помеченными 1 и 2, чтобы посмотреть, смогу ли я их объединить, но не знаю, правильный ли это подход. Я попытался сделать кадры данных одинакового размера, добавив нули к меньшему, а затем выполнил корреляционную матрицу для обоих наборов данных вместе , это правильный подход