Удалить значения выше / ниже стандартного отклонения - PullRequest
2 голосов
/ 19 января 2020

У меня есть база данных, которая состоит из 18 столбцов и 15 миллионов строк, в каждом столбце есть выбросы, и я хотел удалить значения выше и ниже 2 стандартных отклонений. Мой код, похоже, ничего не редактирует в базе данных.

Спасибо.

import pandas as pd
import random as r
import numpy as np


 df = pd.read_csv('D:\\Project\\database\\3-Last\\LastCombineHalf.csv')
df[df.apply(lambda x :(x-x.mean()).abs()<(2*x.std()) ).all(1)]
df.to_csv('D:\\Project\\database\\3-Last\\Removal.csv', index=False)

1 Ответ

1 голос
/ 19 января 2020

Возможно, потому что вы не присвоили результаты обратно df?

От:

df[df.apply(lambda x :(x-x.mean()).abs()<(2*x.std()) ).all(1)]

Кому:

df = df[df.apply(lambda x :(x-x.mean()).abs()<(2*x.std()) ).all(1)]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...