Рассчитать Матрицу путаницы в разных столбцах в панде? - PullRequest
0 голосов
/ 05 марта 2019

У меня есть фрейм данных с 3000 строками и 3 столбцами следующим образом:

   0    col1  col2  col3  
  ID1     1     0     1     
  Id2     1     1     0     
  Id3     0     1     1     
  Id4     2     1     0           
  Id5     2     2     3     
   …        ..   ..    ..
  Id3000  3     1     0

В этом фрейме данных значение каждого столбца и строки относится к результату проблемы прогнозирования следующим образом: 0 означаетTP, 1 означает FP, 2 относится к TN и 3 указывает к FN в каждом столбце.Поэтому я хочу рассчитать точность каждого столбца.что-то вроде этого:

 Accuracy result:
                 col1  col2  col3
                  0.67  0.68 0.79

Любая идея, что я могу очень эффективно рассчитать важные метрики, такие как точность или f-мера.

1 Ответ

0 голосов
/ 05 марта 2019

вот один из способов:

  data = """
 id    col1  col2  col3  
ID1     1     0     1     
Id2     1     1     0     
Id3     0     1     1     
Id4     2     1     0           
Id5     2     2     3 
  """

#coding to create a sample DataFrame for testing
df = pd.read_csv(pd.compat.StringIO(data), sep='\s+')
print(df)
#end of creation

accuracy ={}  #dict for result final
# i select all columns with name begins by 'col' and create a list
select_cols = [col for col in df.columns if col.startswith('col')]

for col in select_cols:
    df1 = df.groupby(col).size()
    t = [0,0,0,0]      #[TP, FP, TN, FN] 0 = TP, 1 = FP, 2 = TN and 3 = FN
    for v in df1.index:
        t[v] = df1[v]
    accuracy[col] = (t[0] + t[2])/(sum(t)) #Accuracy = (TP + TN)/(TP +TN + FP + FN

df_acc = pd.DataFrame.from_dict(accuracy, orient='index').T

print('Accuracy:');print(df_acc)

вывод:

Accuracy:
   col1  col2  col3
0   0.6   0.4   0.4

Или другое решение (лучше, я думаю): вы заменяете 2 цикла for

for col in select_cols:
    accuracy[col] = (df[df[col]==0].count()[0] + df[df[col]==2].count()[0]) / df[col].count()

df_acc = pd.DataFrame.from_dict(accuracy, orient='index' ).T.reset_index(drop=True)

print('Accuracy');print(df_acc)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...