У меня есть последовательность AGCTTTCGA
, и меня просят сначала перечислить все униграммы и биграммы. Насколько я знаю, это правильно:
юниграммы:
{A, G, C, T, T, T, C, G, A}
биграммы:
{AG, GC, CT, TT, TT, TC, CG, GA}
Теперь мне нужно вычислить следующий наиболее вероятный символ в этой последовательности для режима униграммы и биграммы. Я знаю, что формула вероятности
p (w2 | w1) = количество (w1, w2) / количество (w1)
но не уверен, как бы я использовал это здесь?