Как самозагрузка улучшает качество филогенетической реконструкции - PullRequest
6 голосов
/ 12 октября 2011

Привет, ребята: мое понимание начальной загрузки заключается в том, что вы

1) Создаете «дерево», используя какой-то алгоритм из матрицы последовательностей (скажем, нуклеотидов).2) Вы храните это дерево.3) Возмущаем матрицу из 1 и восстанавливаем дерево.

Мой вопрос: какова цель 3 с точки зрения биоинформатики последовательности?Я могу попытаться «угадать», что, изменяя символы в исходной матрице, вы можете удалить артефакты в данных - но у меня есть проблема с этим предположением: я не уверен, почему удаление таких артефактов необходимо -- ПРЕДПОЛАГАЕТСЯ выравнивание последовательности, чтобы иметь дело с артефактами, находя длинные отрезки сходства, по самой своей природе ...

Ответы [ 2 ]

6 голосов
/ 12 октября 2011

Самозагрузка, в филогенетике, как и везде, не улучшает качество того, что вы пытаетесь оценить (дерево в данном случае).Что он делает, так это дает вам представление о том, насколько вы можете быть в отношении результата, полученного из вашего исходного набора данных.Анализ начальной загрузки отвечает на вопрос: «Если бы я повторил этот эксперимент много раз, используя каждый раз разную выборку (но одинакового размера), как часто я ожидал бы получить один и тот же результат?»Обычно это разбито по краям («Как часто я ожидаю увидеть это конкретное ребро в выведенном дереве?»).

Ошибка выборки

Точнее, начальная загрузка - это примерноизмерение ожидаемого уровня ошибки выборки в вашей оценке.Большинство эволюционных моделей обладают тем свойством, что если бы в вашем наборе данных было бесконечное число сайтов, вам было бы гарантировано для восстановления правильного дерева и правильной длины ветвей *.Но с ограниченным числом сайтов эта гарантия исчезает.То, что вы выводите в этих обстоятельствах, можно рассматривать как правильное дерево плюс ошибка выборки , где ошибка выборки имеет тенденцию уменьшаться по мере увеличения размера выборки (количества сайтов).Что мы хотим знать, так это то, сколько ошибок выборки мы должны ожидать для каждого края, учитывая, что у нас есть, скажем, 1000 сайтов.

Что мы хотели бы сделать, но не можем

Предположим, вы использовали выравнивание из 1000 сайтов, чтобы вывести исходное дерево.Если бы у вас была возможность упорядочить столько сайтов, сколько вы хотели для всех своих таксонов, вы могли бы извлечь еще 1000 сайтов из каждого и снова выполнить этот вывод дерева, и в этом случае вы, вероятно, получите дерево, которое было бы похоже, но немного отличалось оторигинальное дерево.Вы можете делать это снова и снова, используя свежую партию из 1000 сайтов каждый раз;если бы вы делали это много раз, в результате вы получили бы распределение деревьев.Это называется выборочное распределение оценки.В общем, оно будет иметь самую высокую плотность вблизи настоящего дерева.Кроме того, оно становится более сконцентрированным вокруг истинного дерева, если вы увеличиваете размер выборки (количество сайтов).

Что говорит нам этот дистрибутив?Это говорит нам о том, насколько вероятно, что любая конкретная выборка из 1000 сайтов, созданная этим эволюционным процессом (дерево + длина ветвей + другие параметры), на самом деле даст нам истинное дерево - иными словами, насколько мы можем быть уверены в нашем первоначальном анализе,Как я упоминал выше, эта вероятность получения правильного ответа может быть разбита по краям - вот что такое «вероятность начальной загрузки».

Что мы можем сделать вместо

На самом деле у нас нет возможности волшебным образом генерировать столько столбцов выравнивания, сколько мы хотим, но мы можем «притворяться», что делаем, просто рассматривая исходный набор из 1000 сайтов как пул сайтов, из которого мы рисуем свежий пакет.из 1000 сайтов с повторением для каждого экземпляра.Как правило, это приводит к распределению результатов, отличающемуся от истинного распределения выборки на 1000 площадок, но для большого количества площадок приближение является хорошим.


* То есть предполагается, что набор данных был фактически сгенерированк этой модели - что-то, что мы не можем знать наверняка, если мы не делаем симуляцию.Кроме того, некоторые модели, такие как нескорректированная экономия, на самом деле обладают парадоксальным качеством, которое заключается в том, что при некоторых условиях, чем больше у вас сайтов, тем меньше вероятность восстановления правильного дерева 1035 *

1 голос
/ 12 октября 2011

Начальная загрузка - это общий статистический метод, который применяется вне биоинформатики.Это гибкий способ справиться с небольшими выборками или выборками из сложной совокупности (что, я полагаю, имеет место в вашей заявке).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...