У меня есть подход машинного обучения, который считает автомобили в изображениях JPEG. Для каждого изображения у меня есть прогнозируемое количество автомобилей с помощью подхода машинного обучения и реальное количество автомобилей на основе количества людей. Вот как выглядит набор данных:
predicted_cars real_cars
Image_1 2 1
Image_2 6 7
Image_3 0 0
Image_4 0 1
Image_5 0 0
Image_6 1 1
...
Image_5000 4 3
Моя первоначальная мысль состояла в том, чтобы использовать линейную регрессию, хотя, поскольку этот набор данных имеет дискретные данные подсчета, я полагаю, что это было бы неуместно. Кроме того, так как большинство подсчетов, вероятно, будет 0, это, вероятно, повлияет на статистику.
Какой подход я могу использовать для статистической и / или графической оценки того, насколько хорошо прогнозируемое количество автомобилей сравнивается с "реальным" количеством автомобилей? Я работаю в Python с scikit-learn и pandas.