У меня есть некоторые переходы, которые обозначены числами (представьте цифры как метки)
У меня есть некоторый код, который генерирует такие данные.Код в R
dataTrain=clusterSeq$FilteredMatrixFor90Percent[1:size,1:size]
dataTrain=matrix(1, nrow = 4, ncol = 4)
dataTrain[2,3]=3
dataTrain[1,3]=3
dataTrain[1,1]=2
dataTrain[1,4]=-1
dataTrain[2,4]=-1
dataTrain[1,1]=2
dataTrain[3,1]=3
> dataTrain
[,1] [,2] [,3] [,4]
[1,] 2 1 3 -1
[2,] 1 1 3 -1
[3,] 3 1 1 1
[4,] 1 1 1 1
Каждая строка теперь является записью от устройства, которое сообщает об изменениях своего статуса.Например, предположим, что строка 1 - это устройство 1: затем она прошла через состояния: 2 -> 1-> 3 (и затем остановилась).Не все устройства сообщают одинаковую длину, и поэтому в конце добавляется -1, чтобы обозначить это и делать записи одинаковой длины.
Как вы только что заметили, у меня есть отчеты различной длины.
Я хочупостроить простое статистическое дерево всех таких переходов.В идеале я хочу также делать прогнозы.Msgstr "Каковы следующие переходы, если ввод 2-1".Предсказания могут также рассматриваться как обрезка предполагаемого дерева дальше.
Я много читал, и похоже, что цепочки Маркова могли бы уловить такую динамику.Я все еще не уверен, если это правильный выбор:
- Длины последовательностей не одинаковы
- Переходы на -1 не должны приниматься во внимание,Например, в первой строке 3-> -1, как я уже объяснил, не является переходом.
Можете ли вы предложить мне методологию, которая может работать с данными такого типа?Я хочу: 1. Построить некоторую визуализацию со статистикой, а затем также сделать 2. вывод, основанный на вводе (переменные входы, такие как «2», «2-1», «3-1-1»).
Я был бы более чем признателен, если бы вы могли предоставить мне больше информации о том, что я должен прочитать.
Спасибо, Алекс