Слишком сложные модели в обработке данных - PullRequest
0 голосов
/ 30 июля 2009

Для тех, кто обрабатывает данные, есть поговорка: «Если вы пытаете данные в достаточной мере, они признаются почти во всем». Это математически подтверждается теоремой Боферрони, которая гласит, что «по мере того, как кто-то выполняет все большее количество статистических тестов, вероятность получения ошибочного значительного результата (ошибка типа I) также увеличивается». Известно, например, положение, приведенное в Принципы интеллектуального анализа данных : «Один особенно забавный пример такого типа предсказания был предоставлен Лейнвебером (личное общение), который достиг почти идеального предсказания годовых значений хорошо известный финансовый индекс Standard and Poor 500 как функция годовых значений предыдущих лет для производства масла, производства сыра и поголовья овец в Бангладеш и США. "

Сталкивались ли вы с практической ситуацией, когда при использовании слишком сложной модели результаты были ошибочными? Можете ли вы представить такую ​​ситуацию вместе с подходом, который вы использовали?

1 Ответ

2 голосов
/ 30 июля 2009

По моему опыту, основная проблема заключается в неправильном использовании статистических методов. Одна распространенная ошибка - не определять заранее данные, которые должны быть проверены. Один Профессор, которого я слышал, сравнивал это с скачками, на которых вы делаете финальный снимок не в заранее определенном месте, а когда ваша лошадь впереди. Это довольно часто встречается в медицинских исследованиях.

Другой пример, который я знаю, - это когда кто-то проводил статистический тест, который предполагал, что данные распределены нормально, а это не так.

Никогда не думайте, что статическая зависимость является причинной (например, во Франкфурте существует зависимость между ВИЧ и шумом самолетов - это не означает, что шум полета вызывает ВИЧ).

В принципе, это не сложность модели. Вы должны использовать правильные методы с правильными данными. Это достаточно сложно. Вы должны определить свои данные перед тестированием. Если вы хотите проверить это, просто сделайте тест на справедливость бросков кубика или бросков монет. Сделайте это со всеми данными после каждого броска / сальто. Вы увидите, что время от времени это будет показывать, что ваша смерть не справедлива. Конечно, если вы проведете большое количество независимых тестов на честность кубика, у вас будут тесты, которые покажут, что он несправедлив - но это ожидаемая ошибка в статистических тестах.

Еще одна очень простая вещь в статистических исследованиях: будьте уверены, что говорит ваша гипотеза. Иногда тест не может показать то, что вы хотите иметь - он только не может отклонить его.

Короче говоря - не занимайтесь интеллектуальным анализом данных / статистическим анализом без какой-либо мысли и образования. Работа статистики нелогична для людей, и вы можете легко обмануть (себя и других).

...