как преобразовать тренд временного ряда в измеримую переменную предиктора - PullRequest
0 голосов
/ 17 июня 2019

У меня есть данные временного ряда, которые объясняют количество мошенничеств в транзакции за 1 год вместе с целевой переменной мошенничества или нет.

Ось X - это временная линия, а ось Y - этоколичество обнаруженных случаев мошенничества.

Имеется ли у нас какая-либо модель / статистическая техника ML, которая пытается выявить тенденцию в этих мошенничествах и преобразовать их в измеримую переменную предиктора со значениями от 0 до 1, где значения, близкие к 1, более подвержены мошенничеству и жертвам?.,

Тенденции мошенничества за год нелинейны, поэтому, если есть какое-либо математическое преобразование, которое я могу применить к временному ряду, чтобы оно могло дать мне измеримую особенность?

Любые предложения высоко ценятся?

Я думал об использовании нормальных методов наклона, где отрицательный наклон по временной шкале меньше мошенничества и положительный наклон для большего мошенничества.Он захватывает только линейный тренд, но должен захватывать нелинейный тренд.

Edit ::

Я забыл один важный момент.Я приведу один сценарий, чтобы лучше объяснить этот момент.

Для финансовых банков, скажем, у меня есть 1000 банков, и у каждого банка есть 12-месячный период количества мошенничества, обнаруженных в месяц, и соответствующая целевая переменная, независимо от того, есть ли у этого банка высокие шансы на мошенничество.

Теперь, когда я сталкиваюсь с новым банком с соответствующими мошенничествами через 12 месяцев, как можно определить, является ли этот банк мошенническим или нет, используя шаблон мошенничества 1000 банков?

Можем ли мы использовать любые временные рядыподход?Я предполагаю, что если это для отдельного банка, временные ряды обрабатывают это, поскольку у меня есть несколько банков, я полагаю, используя методы нелинейной регрессии, предполагая, что каждый месяц как одна особенность, обучение модели может помочь?Как я могу получить полиномиальное уравнение, которое я могу использовать для прогнозирования цели?

Пожалуйста, поделитесь своими мыслями также

1 Ответ

0 голосов
/ 17 июня 2019

Я предполагаю, что ваши данные включают переменные риска (данные клиента, данные о кредите и т. Д.).Для этого я использовал линейные модели, логистические модели и деревья условных помех.Ниже приведен обзор высокого уровня.Вы действительно должны понимать основные методы, чтобы получить хорошую, функциональную модель.Я рекомендую использовать фиктивные переменные с этими ... двоичными файлами, которые лучше всего подходят для легкой интерпретации.

Линейная модель или логистическая модель приведет к уравнению, которое вы можете использовать для измерения риска каждой записи (займа).Этот метод требует выбрасывания выбросов, расстояния Кука и т. Д.

Линейный:

step(lm(default flag ~ Variable 1 + Variable 2 + ...))

Логистика:

glm(default flag ~ Variable 1 + Variable 2 + ...)

Другой - деревья условных помех.Я бы использовал пакет partykit () с функцией ctree ().Это будет набор значений по умолчанию, основанный на статистической значимости переменных в сегменте.

plot(ctree(default flag ~ Variable 1 + Variable 2, data= "Your data", 
controls = "looks this up for your model")

Кроме того, если вас беспокоит также время по умолчанию, посмотрите анализ выживания.

Я имел успех со всеми тремя.Если все, что у вас есть, это период времени и общее количество по умолчанию, вы не сможете с этим ничего поделать, поскольку у вас не будет базовых переменных.

...