Как моделировать распределенные данные такого типа и какова хорошая метрика ошибок - PullRequest
0 голосов
/ 13 июля 2020

введите описание изображения здесь

Я пытаюсь смоделировать процесс, который включает большой объем измеренных данных. Однако я не хочу фильтровать отклонения от измерений, но сохраняю их как ценную информацию. Итак, я создал игрушечный пример, в котором интерполированное среднее значение данных вообще не имеет смысла. Более того, каждый возможный путь зависит от предыдущих значений.

Не могли бы вы дать мне несколько советов по методам для нестатистика? Я считаю, что это не марковская цепь, поскольку в реальных данных следующее значение может зависеть от нескольких более ранних временных шагов (ускорения и c.). Я думаю, что это также нельзя смоделировать с помощью гауссовского процесса. Мы видим, что данные обычно не распределяются по временным шагам. Однако я не уверен, правда ли это, если вы идете индивидуальным путем. Если известны более ранние состояния, вероятно, будет правильным предположить лежащее в основе нормальное распределение для следующего образца.

Теперь я сделал единственную разумную вещь, когда вы понятия не имеете, и бросил данные в повторяющийся нейронный net который получает одно более раннее состояние и возвращает дискретное распределение. Я могу выполнить выборку из этого дистрибутива, и он дает мне следующее состояние (см. График).

Но какой показатель ошибки c в этом случае будет хорошим? Моя идея состоит в том, чтобы пробовать NN достаточное количество раз, чтобы построить распределение на разных временных шагах. Здесь я мог сравнить распределения по KL-дивергенции или расстоянию движения Земли (очень медленно!). Есть ли способ получить "глобальную" ошибку metri c?

...