Тренировка граната HMM с данными, помеченными для групп государств - PullRequest
0 голосов
/ 01 апреля 2020

Я пытаюсь тренировать НММ, построенный с гранатом в python, для предсказания присутствия сигнальных пептидов в белковых AA-последовательностях, а также сайта расщепления сигнального пептида. Более или менее повторяя работу в SignalP2.0, я разделил сигнальный пептид на три области, h-, n- и c -области, представляющие гидрофобную c трансмембранную область 6-20 AA. область с большим количеством положительно заряженных AA и область с полярными, но в основном незаряженными AA соответственно. N-область начинается на N-конце последовательности белка АА, а затем следует h-область, затем c -регион и сайт расщепления, движущийся к C -концу. Не вдаваясь слишком далеко в архитектуру HMM, это изображение того, как настроены состояния, с серыми прямоугольниками, представляющими связанные распределения излучений для состояний внутри прямоугольника. enter image description here

Для обучения я хочу использовать набор данных, который помечен строго в соответствии с положением места расщепления, здесь, давая одну из двух возможных меток для каждого наблюдения, S , который представляет наблюдение (аминокислота) внутри сигнального пептида и O, который представляет наблюдение (АА) вне сигнального пептида в общей последовательности. Другими словами, метка S означает, что наблюдение находится в пределах h-, n- или c -региона в модели, но не указывает, какой регион или какое положение, которое определяет состояние c в моей модели HMM (h1, . Н2, Н3, n1, n2, и др c), наблюдение в Например:. «MQRNLVVLLFLGMVALSSCGFREKHFQRFVKYAVPESTLRTVLQTVVHKVGKTQFGCPAYQGYCDDHCQD» последовательность «SSSSSSSSSSSSSSSSSSSOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO» метки означая MQRNLVVLLFLGMVALSS последовательности C представляет собой последовательность сигнального пептида, с сайтом расщепления между последний C помечен как S, а первый G помечен как O. Наблюдения, помеченные как O, являются частью зрелого белка, отщепленного от сигнального пептида, начиная с состояний m1, m2, m3, m4, ... Использование этих помеченных данных в В процессе обучения сайт расщепления всегда правильно позиционируется в каждой обучающей выборке, но HMM остается выяснить, где разместить границы между h-, n- и c -регионами.

Является ли этот тип помеченного обучения возможно с использованием помег или мне нужно будет найти другую библиотеку HMM? (Есть ли даже установленная библиотека, которая поддерживает это?)

...