Около года назад я помог другу, который работает в ibank, с побочным проектом, направленным на поисковый майнинг большого киоска данных, состоящего из финансовых данных.
Я предложил использовать Правила ассоциации алгоритм (он же Market Basket Analysis) для проведения разведочного анализа этого витрина данных.Он сказал мне, что он и его сотрудники были впечатлены результатами и намеревались установить эту технику в периодическом процессе майнинга.
Я выбрал Правила ассоциации для этого проекта, потому что:
он работает практически из коробки (в частности, требуется очень небольшая предварительная обработка данных)
это просто и быстро настроить и начатьиспользуя - по сути, вы идентифицируете источник данных и минимальный порог для силы ассоциации (т. е. * не возвращает наборов правил с ассоциацией ниже _ *)
доступны отличные реализации с открытым исходным кодом - о которых я знал: Orange (написано на C ++ / python, интерфейс сценариев на Python) и R .
В R майнинг правил ассоциации доступен через несколько сторонних пакетов, чаще всего используется arules, доступный в RForge .
Для Orange модуль, который вы хотитефактически включено (o rngAsso c).
Я не знаю точно, насколько распространенным является использование этого метода в финансовых данных;тем не менее, я знаю, что для этого, безусловно, есть много прецедентов, и в настоящее время он успешно применяется в этом контексте.(См., Например, Прогнозирование изменений в индексе составных цен акций Кореи (KOSPI) с использованием правил ассоциации .)