Линейный регрессионный анализ с категориальными признаками (переменными) - PullRequest
0 голосов
/ 28 апреля 2020

Я хочу провести регрессионный анализ и выполнить преобразование в coremltools для данных, содержащих категориальные функции

enter image description here

Имеется 1 функция: install-id и прогнозируемый выход в endPoint

Как я могу сделать регрессию на этих данных? Нужно ли вручную преобразовывать все строковые / категориальные данные в числа? Я имею в виду, если мне нужно создать некоторые правила кодирования и в соответствии с этими правилами преобразовать все данные в числовые значения c. Я также использовал get_dummies для категориальных значений в install-id и endPoint, однако он не работал

Ниже приведен мой код.

from sklearn.linear_model import LinearRegression
import pandas
import coremltools
data = pandas.read_csv("newjsoncontent.csv")
model = LinearRegression()
model.fit(data["install-id"],data["endPoint"])
coreml_model = coremltools.converters.sklearn.convert(model, ["install-id"],"endPoint")
coreml_model.author = "Kashif"
coreml_model.short_description = "Predicts"
coreml_model.save("Test.mlmodel")

X = data['install-id']
Y = data['endPoint']
X = pd.get_dummies(data=X, drop_first=True)
Y = pd.get_dummies(data=Y, drop_first=True)
model = linear_model.LinearRegression()
model.fit(X, Y)
...