У меня есть CSV-файл с моей оценкой вероятности исхода футбольного матча. Есть три возможных результата: победа, ничья и поражение. Чтобы определить, насколько точны мои оценки, я хочу посмотреть, как они оцениваются по правилу оценки потерь в журнале. В дальнейшем я предполагаю, что:
- В каждом случае / футбольном матче) возможны три исхода (победа / ничья / поражение)
- Модельные прогнозы для результатов - это соответствующие вероятности P, 1, P, 2 и P, 3
- Соответствующие фактические наблюдаемые результаты: E, 1, E, 2 и E, 3 . Так, для футбольных матчей E, i равны либо 1, либо 0, и в таких случаях индекс фактического наблюдаемого результата будет обозначаться w , поэтому E, i равно 1, если i равно w , и 0 в противном случае.
Мой рабочий скрипт выглядит следующим образом
import numpy as np
def log_loss_score(predicted, actual, eps=1e-14):
"""
:param predicted: The predicted probabilities as floats between 0-1
:param actual: The binary labels. Either 0 or 1.
:param eps: Log(0) is equal to infinity, so we need to offset our predicted values slightly by eps from 0 or 1
:return: The logarithmic loss between between the predicted probability assigned to the possible outcomes for item i, and the actual outcome.
"""
predicted = np.clip(predicted, eps, 1-eps)
loss = -1 * np.mean(actual * np.log(predicted) + (1 - actual) * np.log(1-predicted))
return loss
predicted = [0.35, 0.3, 0.35]
actual = [0, 1, 0] # the match ended in a draw
for x in range(0, len(predicted)):
log_loss = log_loss_score(predicted[x], actual[x])
print(log_loss)
Запуск этого скрипта дает мне следующий вывод:
+0,4307829160924542
1,2039728043259361
0,4307829160924542
Я понимаю, что это лог-потеря каждого прогноза исхода матча для одного матча. Но как я могу преобразовать это в "широкий" счет потери журнала?
Вопрос : Как я могу рассчитать оценку потери журнала всего матча, если у меня есть оценка потери журнала каждого потенциального результата?