Как получить научные результаты из не экспериментальных данных (анализ данных?) - PullRequest
4 голосов
/ 20 сентября 2008
  • Я хочу получить максимальную производительность процесса со многими переменными, многими из которых невозможно управлять.
  • Я не могу провести тысячи экспериментов, поэтому было бы неплохо, если бы я мог провести сотни экспериментов и
    • варьируется множество контролируемых параметров
    • сбор данных по многим параметрам, указывающим на производительность
    • «правильно», насколько это возможно, для тех параметров, которые я не мог контролировать
    • Дразнить «лучшие» значения для тех вещей, которыми я могу управлять, и начинать все сначала

Такое ощущение, что это называется интеллектуальным анализом данных, когда вы просматриваете тонны данных, которые, кажется, не сразу связаны, но показывают некоторую корреляцию после некоторых усилий.

Итак ... С чего мне начать смотреть на алгоритмы, концепции, теории такого рода вещей? Даже связанные термины для целей поиска были бы полезны.

Предыстория: мне нравится кататься на ультрамарафоне и вести журнал каждой поездки. Я хотел бы сохранить больше данных, и после сотен поездок я смогу получить информацию о том, как я выступаю.

Однако все меняется: маршруты, окружающая среда (температура, давление, гул, солнечная нагрузка, ветер, осадки и т. Д.), Топливо, ориентация, вес, нагрузка на воду и т. Д. И т. Д. И т. Д. Я могу контролировать мало что, но пробежка по одному и тому же маршруту 20 раз для проверки нового режима топлива просто удручает, и потребуются годы, чтобы выполнить все эксперименты, которые я хотел бы провести. Однако я могу записать все эти вещи и многое другое (телеметрия на велосипеде FTW).

Ответы [ 3 ]

2 голосов
/ 20 сентября 2008

С таким количеством переменных у вас слишком много измерений, и вы можете захотеть взглянуть на Анализ основных компонентов . Он берет часть «искусства» из регрессионного анализа и позволяет данным говорить самим за себя. Некоторое программное обеспечение для такого рода анализа показано внизу ссылки.

2 голосов
/ 20 сентября 2008

Звучит так, как будто вы хотите провести регрессионный анализ . У вас наверняка много данных!


Регрессионный анализ - чрезвычайно распространенный метод моделирования в статистике и науке. (Можно утверждать, что статистика - это искусство и наука регрессионного анализа.) Существует множество пакетов статистики для выполнения необходимых вам вычислений. (Я бы порекомендовал один, но я уже устарел.)

Интеллектуальный анализ данных получил дурную славу, потому что слишком часто люди считают корреляцию причинной Я обнаружил, что хороший метод - начать с переменных, которые, как вы знаете, имеют влияние, и сначала построить статистическую модель вокруг них. Таким образом, вы знаете, что ветер, вес и набор высоты влияют на скорость вашего перемещения, и статистическое программное обеспечение может взять ваш набор данных и вычислить, какова корреляция между этими факторами. Это даст вам статистическую модель или линейное уравнение:

speed = x*weight + y*wind + z*climb + constant

Когда вы изучите новые переменные, вы сможете увидеть, улучшена модель или нет, сравнив метрику соответствия качества, например, R-квадрат. Так что вы можете проверить, добавляет ли температура или время суток что-либо к модели.

Возможно, вы захотите применить преобразование к вашим данным. Например, вы можете обнаружить, что вы работаете лучше в холодные дни. Но действительно холодные дни и действительно жаркие дни могут повредить производительности. В этом случае вы можете назначить температуру для бункеров или сегментов : <0 ° C; От 0 ° С до 40 ° С; > 40 ° C или что-то подобное. Ключ заключается в том, чтобы преобразовать данные так, чтобы они соответствовали рациональной модели того, что происходит в реальном мире, а не только самим данным.


Если кто-то считает, что это не связано с программированием, обратите внимание, что вы можете использовать эти же методы для анализа производительности системы.

1 голос
/ 20 сентября 2008

Я использовал модуль Perl Статистика :: Регрессия для некоторых схожих проблем в прошлом. Имейте в виду, однако, что регрессионный анализ, безусловно, искусство. Как говорится в предупреждении в модуле Perl, для вас не будет смысла, если вы не изучите соответствующую математику.

...