Сколько памяти потребуется для хранения генома человека? - PullRequest
69 голосов
/ 21 января 2012

Я ищу объем памяти в байтах (МБ, ГБ, ТБ и т. Д.), Необходимый для хранения одного человеческого генома. Я прочитал несколько статей в Википедии о ДНК, хромосомах, парах оснований, генах, и у меня есть приблизительное предположение, но прежде чем раскрывать что-либо, я хотел бы посмотреть, как другие подойдут к этому вопросу.

Альтернативным вопросом будет количество атомов в ДНК человека, но это будет не по теме для этого сайта.

Я понимаю, что это будет приблизительное значение, поэтому я ищу минимальное значение, которое могло бы хранить ДНК любого человека.

Ответы [ 11 ]

52 голосов
/ 21 января 2012

Если вы доверяете таким вещам, вот что утверждает Википедия (от http://en.wikipedia.org/wiki/Human_genome#Information_content):

2,9 миллиарда пар оснований гаплоидного генома человека соответствуют максимум около 725 мегабайт данных, так как каждая пара может быть кодируется 2 битами. Поскольку отдельные геномы варьируются менее чем на 1% от они могут быть сжаты без потерь примерно до 4 мегабайт.

25 голосов
/ 21 января 2012

Вы не храните всю ДНК в одном потоке, чаще всего, когда она хранится в хромосомах.

Большая хромосома занимает около 300 МБ, а маленькая - около 50 МБ.


Edit:

Я думаю, что первая причина, по которой он не сохраняется в 2 битах на пару оснований, заключается в том, что это может стать препятствием для работы с данными. Большинство людей не знали бы, как преобразовать это. И даже когда будет предоставлена ​​программа для конвертации, многим людям в крупных компаниях или исследовательских институтах не разрешается / нужно спрашивать или не знать, как устанавливать программы ...

1 ГБ хранилища ничего не стоит, даже загрузка 3 ГБ занимает всего 4 минуты со скоростью 100 Мбит / с, и большинство компаний имеют более высокие скорости.

Другой момент заключается в том, что данные не так просты, как вам говорят.

например. Метод секвенирования, изобретенный Craig_Venter , был большим прорывом, но имеет свои недостатки. Он не может разделить длинные цепочки одной и той же базовой пары, поэтому не всегда ясно на 100%, если есть 8 A или 9 A. Вещи, о которых вы должны позаботиться позже ...

Другим примером является метилирование ДНК , поскольку вы не можете хранить эту информацию в 2-битном представлении.

11 голосов
/ 21 января 2012

Обычно каждая базовая пара занимает 2 бита (вы можете использовать 00, 01, 10, 11 для T, G, C и A). Поскольку в геноме человека около 2,9 миллиарда пар оснований, (2 * 2,9 миллиарда) битов ~ = 691 мегабайт.

Я не эксперт, однако на странице Human Genome в Википедии говорится следующее:

Необработанные МБ:

  • Мужской (XY): 770 МБ
  • Женский (XX): 756 МБ

Я не уверен, откуда взялась их разница, но я уверен, что вы можете понять это.

8 голосов
/ 26 января 2014

Да, минимальная оперативная память, необходимая для всей человеческой ДНК, составляет около 770 МБ.Тем не менее, 2-битное представление является непрактичным.Трудно найти или сделать некоторые вычисления на нем.Поэтому некоторые математики разработали более эффективный способ хранения этих последовательностей баз ... и использовать их в алгоритмах поиска и сравнения, таких как, например, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html).Это приложение работает на моем ПК прямо сейчас, поэтому я могу сказать Вам ... что в нем практически хранится ДНК: 1 563 МБ .

3 голосов
/ 25 апреля 2012

Есть 4 нуклеотидных основания, которые составляют нашу ДНК, это A, C, G, T, поэтому для каждого основания в ДНК требуется 2 бита.Есть около 2,9 миллиардов баз, то есть около 700 мегабайт.Странная вещь заключается в том, что заполнить обычный CD данных!совпадение?!?

3 голосов
/ 21 января 2012

Геном человека содержит 2,9 миллиарда пар оснований. Таким образом, если бы вы представляли каждую базовую пару в виде байта, это заняло бы 2,9 миллиарда байтов или 2,9 ГБ. Возможно, вы могли бы придумать более творческий способ хранения пар оснований, поскольку каждая пара оснований требует только 2 бита. Таким образом, вы, вероятно, могли бы хранить 4 пары оснований на байт, в результате чего общее количество было бы меньше ГБ.

2 голосов
/ 14 марта 2014

только что сделал это тоже. необработанная последовательность составляет ~ 700 МБ. если кто-то использует фиксированную последовательность хранения или алгоритм хранения фиксированной последовательности - и тот факт, что изменения составляют 1%, я вычислил ~ 120 МБ с хранилищем перфромосомных последовательностей смещения состояния. вот и все для хранения.

1 голос
/ 17 февраля 2019

Все ответы не учитывают того факта, что нДНК - не единственная ДНК, определяющая геном человека.мтДНК также наследуется и вносит дополнительные 16 500 пар оснований в геном человека, что в большей степени соответствует предположению Википедии о 770 МБ для мужчин и 756 МБ для женщин.

Это не означает, что геном человекаможет быть легко сохранен на флешке 4 Гб.Биты не представляют информацию сами по себе, это комбинация битов, которые представляют информацию.Таким образом, в случае с нДНК и мтДНК биты кодируются (не путать со сжатыми) для представления белков и ферментов, которые сами по себе требуют много МБ необработанных данных для представления, особенно с точки зрения функциональности.

* 1004Пища для размышления: 80% человеческого генома называют «некодирующей» ДНК, поэтому вы действительно верите, что весь человеческий организм и мозг могут быть представлены всего лишь от 151 до 154 МБ необработанных данных?
1 голос
/ 01 марта 2018

Большинство ответов, кроме пользователей Слейтон, Раухен, Пол Амстронг совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.

Геном человека с 3Gb нуклеотидов соответствует 3Gb байтов, а не ~ 750MB.Сконструированный «гаплоидный» геном согласно NCBI в настоящее время имеет размер 3436687 КБ или 3,436687 ГБ.Проверьте здесь для себя.

Гаплоид = единичная копия хромосомы.Диплоид = две версии гаплоида.У людей есть 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - X, Y и составляет 46 в общей сложности.Самки 23-го хром.равно X, X и, следовательно, составляет 46.

Для мужчин это будет 23 + 1 хромосома при хранении данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, упомянутые время от времени в ответах.Х хром.из мужчин равен X хром.от женщин.

Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием созданных баз данных из файлов fasta.Независимо от версии на молнии или нет, нуклеотиды вряд ли будут сжаты.В первые дни одним из приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, «3GAC»; от 9 байтов до 4 байтов).Причина была в том, чтобы сэкономить место на жестком диске (площадь пластин жесткого диска 500bm-2GB с 7.200 об / мин и разъемов SCSI).Для поиска последовательности это также было сделано с запросом.

Если "кодированный нуклеотид" память будет 2-битной на букву, то вы получите для байта:

A= 00
C = 01
G = 10
T = 11

Только так вы полностью получаете прибыль с позиций 1,2,3,4,5,6,7и 8 для 1 байта кодирования.Например комбинация 00.01.10.11, соответствующая «ACTG».Это одно отвечает за уменьшение размера файла в 4 раза, как мы видим в других ответах.Таким образом, размер 3.4 Гб будет уменьшен до 0.85917175 Гб ... ~ 860 МБ, включая требуемую программу преобразования (23 КБ-4 МБ).

Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатие gzippedболее, чем достаточно.Разархивированный вы все еще можете прочитать.Если это заполнение байтов было использовано, становится труднее читать данные.Вот почему fasta-файлы в действительности являются текстовыми файлами.

0 голосов
/ 29 апреля 2018

One base - T, C, A, G (в системе счисления base-4: 0, 1, 2, 3) - кодируется как два бита (не один), поэтому одна базовая пара кодируется четырьмя битами .

...