Превышение класса в задаче классификации - PullRequest
0 голосов
/ 28 ноября 2018

У меня есть почти 100000 точка данных с 15 функциями для «болезни» и «нет болезни» в качестве цели.

Но мои данные несбалансированы.97% моих данных не болезнь, а 3% болезнь.Чтобы преодолеть это, я вручную создал данные о заболеваниях, создав 7 копий из фактических данных и объединив их с исходными данными.используя этот код.

#selecting data with disease is 1 
# Even created unique 'patient ID' by adding a dummy letter as a suffix to the #original ID.
ia = df[df['disease']==1]
dup = pd.DataFrame()
for i,j in zip(['a','b','c','d','e','f'],['B','C','E','F','G','H']):
    i = ia.copy()    
    i['dum'] =  j
    i["patient ID"] = i["Employee Code"]+ i['dum']
    dup= pd.concat([dup,i])
# adding the copies to the original data
df = pd.concat([dup,df])

Пожалуйста, дайте мне знать, если это правильный метод для передискретизации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...