Существует ли теория для проверки максимальной теоретической точности для набора данных? - PullRequest
1 голос
/ 13 февраля 2020

Я применяю несколько методов машинного обучения к реальному набору медицинских данных, но не могу достичь высокой точности (сейчас она составляет около 80%) для набора тестовых данных. Проблема предсказать, если болезнь присутствует или нет.

Есть ли способ доказать, насколько можно достичь максимальной точности? Или что-то похожее, что может сказать ожидаемую точность конкретной модели машинного обучения для набора данных?

Если нет, как я могу доказать, что точность, которую я получаю, является наилучшей (или почти наилучшей) точностью, возможной из набор данных?

Ответы [ 2 ]

1 голос
/ 13 февраля 2020

Зависит от того, насколько детерминированы c ваши данные. Я проиллюстрирую это двумя переменными, у как функцией х.

Если y = x, то теоретическая наилучшая точность равна 100%. Должно быть возможно получить идеальный результат.

Теперь предположим, что y = x + rnorm (n, 0, sigma), где n - количество точек, и вы можете выбрать сигму. Вы можете предсказать x, но вы не можете предсказать случайную часть. Чем больше сигма, тем хуже ваши прогнозы. Вы можете сделать максимально возможную точность сколь угодно низкой, выбрав достаточно большую сигму.

С реальными данными вы обычно не знаете, насколько хорошо ваши входные переменные определяют выход, поэтому вы не можете установить значимый теоретический предел, просто точность между 0 и 1.

0 голосов
/ 13 февраля 2020

Каков уровень точности для обнаружений, сделанных людьми?

Если это почти то, что вы получаете с помощью машины, у вас все отлично! Даже если машина работает немного хуже, ее даже можно считать хорошей.

В отрасли такой вопрос в основном является вопросом управления продуктом, а не научным c.

...