Алгоритм анализа изменчивости - PullRequest
2 голосов
/ 11 марта 2011

Я работаю с большим количеством гистограмм. В частности, эти гистограммы имеют базовые звонки вдоль сегментов человеческого генома.

Каждая точка вдоль оси x является одним из четырех азотистых оснований (A, C, T, G), составляющих ДНК, а ось y представляет, сколько раз основание можно было «вызвать» (или распознать с помощью секвенатора, чтобы упорядочить геном, который просто определяет идентичность каждого основания вдоль генома).

Многие из этих гистограмм показывают примерно линейные спады (когда машины не могут получить достаточную глубину считывания), которые падают до 0 или (почти-0) из областей, подобных плато. Когда счет падает до нуля, это означает, что секвенсор не может определить идентичность базы. Если вы уже видели двойную спираль раньше, это означает, что секвенсор не может определить, какая половина ступени спирали. Некоторые области генома труднее охарактеризовать, чем другие. Базы (или x точек данных) с большим количеством базовых вызовов, порядка> = 100, могут быть окончательно идентифицированы. Например, если в общей сложности было 250 вызовов для одной базы, и у нас было 248 вызовов T, 1 G и 1 A, мы бы назвали T. Области с 0 базовыми вызовами вызывают озабоченность, потому что тогда мы должен сделать вывод из соседних регионов, какой может быть идентичность региона с низким уровнем чтения. Существует ли простой алгоритм для присвоения этим графикам баллов, отражающих эту тенденцию? См. Box.net/shared/nbygq2x03u для примера histo.

1 Ответ

1 голос
/ 11 марта 2011

Вы можете просто использовать количество базовых чисел, где глубина чтения была 0 ... Наклон этой линии также может быть полезным индикатором (крутой отрицательный наклон = падение с плато).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...