Как сравнить предсказанные и реальные данные частоты? - PullRequest
2 голосов
/ 16 апреля 2019

У меня есть подход машинного обучения, который считает автомобили в изображениях JPEG. Для каждого изображения у меня есть прогнозируемое количество автомобилей с помощью подхода машинного обучения и реальное количество автомобилей на основе количества людей. Вот как выглядит набор данных:

             predicted_cars   real_cars
Image_1      2                1
Image_2      6                7
Image_3      0                0
Image_4      0                1
Image_5      0                0
Image_6      1                1
...
Image_5000   4                3

Моя первоначальная мысль состояла в том, чтобы использовать линейную регрессию, хотя, поскольку этот набор данных имеет дискретные данные подсчета, я полагаю, что это было бы неуместно. Кроме того, так как большинство подсчетов, вероятно, будет 0, это, вероятно, повлияет на статистику.

Какой подход я могу использовать для статистической и / или графической оценки того, насколько хорошо прогнозируемое количество автомобилей сравнивается с "реальным" количеством автомобилей? Я работаю в Python с scikit-learn и pandas.

Ответы [ 2 ]

1 голос
/ 16 апреля 2019

Расчет точности результата здесь довольно тривиален, вы можете взять, например, среднюю абсолютную ошибку или среднеквадратичную ошибку . Вы можете найти широкий спектр метрик ошибок в sklearn.metrics.

А для визуального представления результатов одним из способов будет построение гистограммы с накоплением:

df.plot(kind='bar', stacked=True)

enter image description here

0 голосов
/ 16 апреля 2019
...