Простая задача машинного обучения (SVM, случайный лес - PullRequest
0 голосов
/ 18 мая 2019

Я пытаюсь решить задачу машинного обучения, но столкнулся с некоторыми проблемами. Любые советы будут с благодарностью. Один из моих вопросов заключается в том, как создать матрицу корреляции для 2-х фреймов данных (данных для 2-х меток) разных размеров, чтобы посмотреть, сможете ли вы объединить их в один.

Вот весь текст задания

Этот набор данных состоит из 1100 выборок по 30 объектов в каждом. Первый столбец - это идентификатор образца. Второй столбец в наборе данных представляет метку. Есть 4 возможных значения для меток. Остальные столбцы являются числовыми элементами.

Обратите внимание, что классы не сбалансированы: некоторые ярлыки встречаются чаще, чем другие. Вам нужно решить, принять ли это во внимание, и если да, то как.

Сравните производительность машины опорных векторов (реализованной sklearn.svm.LinearSVC) с производительностью RandomForest (реализованной sklearn.ensemble.ExtraTreesClassifier). Попробуйте оптимизировать параметры обоих алгоритмов и определить, какой из них лучше всего подходит для этого набора данных. В конце анализа вы должны были выбрать алгоритм и его оптимальный набор параметров.

Я попытался создать матрицу корреляции для строк с метками с меньшим количеством элементов, но я не уверен, что это надежно

Я попытался создать два новых кадра данных из строк с метками 1 и 2. Для каждой из этих двух меток есть 100-150 записей, по сравнению с 400 для меток 0 и 3. Я хотел проверить, есть ли высокая корреляция между данными, помеченными 1 и 2, чтобы посмотреть, смогу ли я их объединить, но не знаю, правильный ли это подход. Я попытался сделать кадры данных одинакового размера, добавив нули к меньшему, а затем выполнил корреляционную матрицу для обоих наборов данных вместе , это правильный подход

1 Ответ

0 голосов
/ 21 мая 2019

Ваш вопрос и подход не ясны.Можете ли вы изменить вопрос с помощью постановки задачи и нескольких предоставленных вам наборов данных.

Если вы хотите визуализировать свой набор данных, нанесите их на 2,3 или 4 измерения.Здесь много инструментов для построения графиков, таких как трехмерный график рассеяния, парный график, гистограмма и многое другое.используйте их, чтобы лучше понять ваши наборы данных.

...