Как создать вектор объектов, если у меня нет всех данных? - PullRequest
0 голосов
/ 11 июля 2019

Итак, скажите для каждой моей «вещи», которую я должен классифицировать: {дом, квартира, бунгало, электричество с подогревом, газ с подогревом, ...}

Что будет превращено в вектор признаков: {1,0,0,1,0, ...} что означает дом, который отапливается электричеством.

Для моих тренировочных данных у меня были бы все эти данные - но для фактической вещи, которую я хочу классифицировать, у меня могло бы быть только то, какой это дом, и пара других вещей - не все данные, т.е. {1,0,0,?,?, ...}

Так как бы это представить?

Я бы хотел найти вероятность того, что новый предмет будет подогреваться газом.

Я бы использовал линейный классификатор SVM - у меня нет никакого ядра, чтобы показать, потому что это чисто теоретический момент. Любая помощь будет оценена :)

Ответы [ 2 ]

2 голосов
/ 15 июля 2019

Когда я читаю этот вопрос, кажется, что вы, возможно, перепутали с функцией и ярлыком.

Вы сказали, что хотите предсказать, будет ли новый элемент «gasHeated», тогда «gasHeated» должен быть меткой, а не функцией.

Кстати, один из наиболее распространенных способов справиться с отсутствующим значением - установить его в «ноль» (или в какое-то неиспользуемое значение, скажем, -1). Но обычно для того, чтобы этот трюк был эффективным, у вас должны отсутствовать значения как в данных обучения, так и в данных тестирования. Если это произошло только в ваших данных тестирования, но не в ваших данных обучения, это означает, что ваши данные обучения и данные тестирования не относятся к одному и тому же распределению, что в основном нарушает базовое предположение о машинном обучении.

0 голосов
/ 12 июля 2019

Допустим, у вас есть обученная модель и тестовый образец {?, 0,0,0}.Затем вы можете создать два новых тестовых образца: {1,0,0,0}, {0,0,0,0}, и у вас будет два прогноза.

Лично я не думаю, что SVMхороший подход, если в вашем наборе данных тестирования отсутствуют значения.Точно так же, как я упоминал выше, хотя вы можете получить два новых прогноза, но что если каждый из них имеет разные прогнозы?По моему мнению, трудно присвоить вероятность результатам SVM, если вы не используете логистическую регрессию или наивный байесовский анализ.Я бы предпочел Случайный Лес в этой ситуации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...