Линейная регрессия означает, что вы ищете f в y = f (x) или y = f (x1, x2 ..) для непрерывных переменных. Механизм не работает для категорий: он думает, что переменная, соответствующая категории, может плавно варьироваться между C2 и C3, C3 и C4 и т. Д. Когда вы создали несколько столбцов, возможно, дела пошли хуже: теперь у вас есть больше переменных, которые пытаютсяприспособить форму f () - понимаете, о чем я? Подумайте об одном столбце категорий: y = f (c);теперь у вас есть y = f (c1, c2 ...), каждый из которых непрерывно меняется и, таким образом, смешивает категории в небольших количествах (ваши коэффициенты, например, 10 ^ -5, 10 ^ -6 и т. д.).
В логистической регрессии используется af () с любопытной формой (сигмоидальной) с экстремальными значениями 0 и 1 и рампой между ними;он непрерывен между Cx и Cy, но имеет внезапный скачок. Это часто связано с этим типом проблемы. Нейронные сети как многослойный персептрон - не что иное, как регрессия, украшенная такими причудливыми именами, как AI, нейронные и т. Д. Решает ли это вашу проблему? Это зависит от периода. Но десятки статей были опубликованы с использованием такой регрессии, настройки параметров и алгоритмов «обучения» и пометки всего этого горячими тематическими словами.
Если - и только если - в идее есть некоторая логикапереходя из одной категории в другую (предположим, что объект может находиться в промежуточном состоянии), вы можете кодировать свои категории как числа. Может быть, C1 = 1, C2 = 2 и т. Д. В конце непрерывные значения могут указывать на переменную, приблизительно совпадающую с категорией - или ничего из этого, просто переменная была достаточно искажена, чтобы f () наилучшим образом соответствовалвыходы у1, у2 .. вы предоставили. Видите, здесь нет однозначного ответа. Любой способ, которым вы это делаете, является приблизительным.
Вместо использования линейной регрессии вы можете попытаться подогнать другую кривую (например, parabolic, sin ..), но это приносит кучу новых проблем. MLP (персептрон) является суммой сигмоидов и обладает хорошими аппроксимативными возможностями (по сравнению с параболой, грехом ...), отсюда и интерес к нему.
Затем есть SVM (Support Vector Machine), еще один зверьв сцене;та же самая базовая идея, но вы работаете с чем-то вроде y = f (g (x)) для некоторой сумасшедшей g (), которая облегчает поиск f ().
Еще один выстрел, такие как Tree Decision Learning Learning иАргументация по делу;это может быть выполнено с помощью инструментов, таких как RapidMiner с плагином weka или самим weka.
Простая линейная регрессия - сложная проблема - не из-за математики (которая может быть представлена ужасными способами), а из-за тонкостейвокруг данных и как это представляет что-то в реальном мире. И ... у вас есть нечто более сложное, чем простая линейная регрессия (извините за плохие новости). Надеюсь, вы найдете приемлемое решение.