Исчезающие строки в pandas кадре данных - PullRequest
0 голосов
/ 02 апреля 2020

Я как-то теряю ряды и не знаю, как двигаться дальше или даже отлаживать этот. Я прочитал запись о 500 000 строк во фрейме данных pandas. Там, кажется, нет нулей. Я нормализую данные и альт, три строки исчезли. Что касается того, как или как, я понятия не имею. Вот что я делаю.

df = pd.read_sql(sql_string, con=db_connection)
df.isna().sum() # verify no null values

id 0 количество 0 current_count 0 часов 0 цена 0

train_dataset = df.sample(frac=0.8,random_state=0)
train_stats = train_dataset.describe()
train_stats.pop("price")
train_stats = train_stats.transpose()
train_stats


               count        mean            std     min     25%     50%     75%     max
amount         539310.0     20639.065589    27150.823231    1.0     6200.00     12250.00    25997.00    1250000.00
current_count  539310.0     8.557446        5.155218    0.0     5.00    8.00    12.00   34.00
hours          539310.0     49.524289       64.611541   0.0     0.19    4.37    114.09  421.75

train_labels = train_dataset.pop('price') # split features from labels

#Normalize the data
def norm(x):
  return (x - train_stats['mean']) / train_stats['std']

normed_train_labels = norm(train_labels)

print('row count '+ str(normed_train_labels.shape[0]))
print('row count '+ str(train_labels.shape[0]))

output

количество строк 539313

количество строк 539310

Так как-то я потерял три строки? не мои стандартные отклонения равны нулю, поэтому моя норма не должна выходить из строя. Любые мысли о том, что происходит или предложения по отслеживанию этого?

1 Ответ

0 голосов
/ 02 апреля 2020

Вы нормализуетесь со значениями train_stats вместо train_labels среднее и сд.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...