Как предсказать Na в питоне, используя линейную регрессию - PullRequest
0 голосов
/ 06 октября 2018

У меня есть набор данных, в котором отсутствуют некоторые значения Y, которые я хотел бы предсказать.Следовательно, я опустил Na, чтобы сначала создать модель, используя этот код -> RBall.dropna (subset = ['NextHPPR'], inplace = True

import statsmodels.api as sm 
from sklearn import linear_model

RBall.dropna(subset=['NextHPPR'], inplace = True)

X = RBall[['ReceivingTargets_x','SnapsPlayedPercentage','RushingAttempts_x', 'RushingAttempts_y']]

Y = RBall['NextHPPR']

lm = linear_model.LinearRegression()
model = lm.fit(X,Y)

Вот скриншот моих данныхперед удалением NA. Обратите внимание на NA в NextHPPR, моя переменная Y в регрессии

Теперь я хотел бы использовать свою модель, чтобы вернуться и предсказать недостающие Na. Я понимаю, что этоэлементарный вопрос, но это мой первый день использования Python. Спасибо.

1 Ответ

0 голосов
/ 07 октября 2018

Я бы использовал NumPy, чтобы найти индекс NaN, а затем вызвал бы предикат.

import numpy as np 

X = np.array([432, 234442, 43, 423, 2342, 3434])
Y = np.array([342, np.NaN, 23, 545, np.NaN, 23])

nan_idx = np.argwhere(np.isnan(Y)).flatten()

print(X[nan_idx])
>>>[234442   2342]

predict_NaNs = lm.predict(X[nan_idx])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...