Я хочу выполнить оценку стороннего ложного срабатывания алгоритма классификации видео. Я передаю немеченое видео по заданному алгоритму классификации, и мне нужно оценить его на предмет ложных срабатываний, сложная часть заключается в том, что в результате получается так много результирующего классифицированного видео, что мне потребовались бы месяцы, чтобы просмотреть все это. Я хотел бы провести анализ мощности, чтобы посмотреть только образец видео и указать частоту кадров с заданным значением CI / точности.
Для простоты, скажем, алгоритм помечает видеопоследовательности, в которых есть хотя бы один кот. Я рассчитываю оценить частоту ложных срабатываний для всех новых данных. Поэтому я пометил все видео, в которых мой алгоритм определил кошку, и теперь хочу сэмплировать помеченные участки видео и вручную просмотреть образец, чтобы выяснить, какова частота FP с этим новым набором данных. Обратите внимание, я не собираюсь дорабатывать модель на данный момент, просто оцените ее.
Моя нулевая гипотеза состоит в том, что частота FP для образца помеченного видео, которое я смотрю, равна частоте FP для всего отмеченного видео.
Я думаю, что могу использовать эту формулу для определения количества видеофрагментов для просмотра:
Вот мой вопрос: правильно ли я продумываю эту формулировку? Модель предположительно имеет показатель ложных срабатываний CV ~ 0,96, я полагаю, я могу использовать это в качестве ссылки. Могу ли я использовать это для нулевой пропорции гипотезы, p0? Или это будет р, истинная пропорция?
Я использую этот онлайн калькулятор:
http://powerandsamplesize.com/Calculators/Other/1-Sample-Binomial
Я спрашиваю, потому что при настройке имеющихся у меня параметров, я получаю очень маленькие размеры выборки, например, менее 10 последовательностей для просмотра. Это не может быть правдой. Любая помощь приветствуется, это кросс-пост на stats.stackexchange.