Поиск покрытия генома с использованием случайного чтения - PullRequest
2 голосов
/ 08 декабря 2011

Спасибо, что посмотрели на мой вопрос. Я пытаюсь решить этот домашний вопрос.

Рассмотрим проблему секвенирования генома путем случайного чтения. Если G является длина всей последовательности, L - длина чтения, а n - количество чтений, то покрытие определяется как nL / G. Теперь, если мы хотим 50% первоначальной длинной последовательности должно быть покрыто хотя бы одним фрагмент, какой охват нам нужен?

Я прочитал модель Lander-Waterman http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htm, чтобы понять концепцию. Но не совсем понял, как решить эту проблему. Я подумал рассмотреть данные 50% как вероятность и y как 1 (значение из распределения Пуассона) и рассчитать лямбда (то есть покрытие). Но я не думаю, что я на правильном пути. Я думал о том, чтобы рассматривать y как 1, потому что вопрос говорит о том, что 50% исходной длинной последовательности должно быть покрыто по крайней мере одним фрагментом, что означает, что эти основания секвенированы по крайней мере один раз.

Я могу ошибаться.

Эксперты, пожалуйста, вы можете направить меня.

Спасибо.

Ответы [ 2 ]

1 голос
/ 08 декабря 2011

Я думаю, ты не так далеко.Как я понял, у = 1 означает, что базы читаются «ровно один раз», а не «хотя бы один раз».Вам нужно будет рассчитать покрытие с вероятностью 0,5 для P (y = 1) + P (y = 2) + ..., что равно ...

1 голос
/ 08 декабря 2011

Если вы смотрите на это как на непрерывную проблему (например, n большое, а L намного меньше G), и предполагаете, что размещение каждого чтения полностью случайное, вероятность того, что каждое дополнительное чтение будет пропущено, пропорциональна существующее покрытие. Это приводит к следующей математике:

d(coverage)/d(n) = (L/G) * (1 - coverage)

Поскольку это домашнее задание, я оставлю решение в качестве упражнения для читателя. (Хотелось бы отметить, однако, что это редкий случай фактического использования исчисления для решения задачи CS 8 ^)


Решение приведенного выше уравнения, начиная с покрытия = 0 при n = 0, дает:

   ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)

В качестве проверки реальности обратите внимание, что именно этого вы и должны ожидать: если ваша выборка действительно случайная, непокрытая часть G должна экспоненциально затухать, как радиоактивный элемент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...