Марков-Цепочка, Статистические деревья, что более уместно - PullRequest
0 голосов
/ 28 июня 2019

У меня есть некоторые переходы, которые обозначены числами (представьте цифры как метки)

У меня есть некоторый код, который генерирует такие данные.Код в R

dataTrain=clusterSeq$FilteredMatrixFor90Percent[1:size,1:size]
dataTrain=matrix(1, nrow = 4, ncol = 4)
dataTrain[2,3]=3
dataTrain[1,3]=3
dataTrain[1,1]=2
dataTrain[1,4]=-1
dataTrain[2,4]=-1
dataTrain[1,1]=2
dataTrain[3,1]=3
> dataTrain
     [,1] [,2] [,3] [,4]
[1,]    2    1    3   -1
[2,]    1    1    3   -1
[3,]    3    1    1    1
[4,]    1    1    1    1

Каждая строка теперь является записью от устройства, которое сообщает об изменениях своего статуса.Например, предположим, что строка 1 - это устройство 1: затем она прошла через состояния: 2 -> 1-> 3 (и затем остановилась).Не все устройства сообщают одинаковую длину, и поэтому в конце добавляется -1, чтобы обозначить это и делать записи одинаковой длины.

Как вы только что заметили, у меня есть отчеты различной длины.

Я хочупостроить простое статистическое дерево всех таких переходов.В идеале я хочу также делать прогнозы.Msgstr "Каковы следующие переходы, если ввод 2-1".Предсказания могут также рассматриваться как обрезка предполагаемого дерева дальше.

Я много читал, и похоже, что цепочки Маркова могли бы уловить такую ​​динамику.Я все еще не уверен, если это правильный выбор:

  1. Длины последовательностей не одинаковы
  2. Переходы на -1 не должны приниматься во внимание,Например, в первой строке 3-> -1, как я уже объяснил, не является переходом.

Можете ли вы предложить мне методологию, которая может работать с данными такого типа?Я хочу: 1. Построить некоторую визуализацию со статистикой, а затем также сделать 2. вывод, основанный на вводе (переменные входы, такие как «2», «2-1», «3-1-1»).

Я был бы более чем признателен, если бы вы могли предоставить мне больше информации о том, что я должен прочитать.

Спасибо, Алекс

...