Как определить следующую наиболее вероятную букву в последовательности, Обработка естественного языка - PullRequest
0 голосов
/ 11 мая 2018

У меня есть последовательность AGCTTTCGA, и меня просят сначала перечислить все униграммы и биграммы. Насколько я знаю, это правильно:

юниграммы:

{A, G, C, T, T, T, C, G, A}

биграммы:

{AG, GC, CT, TT, TT, TC, CG, GA}

Теперь мне нужно вычислить следующий наиболее вероятный символ в этой последовательности для режима униграммы и биграммы. Я знаю, что формула вероятности

p (w2 | w1) = количество (w1, w2) / количество (w1)

но не уверен, как бы я использовал это здесь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...