Большинство ответов, кроме пользователей Слейтон, Раухен, Пол Амстронг совершенно неверны, если речь идет о чистом хранилище один на один без методов сжатия.
Геном человека с 3Gb нуклеотидов соответствует 3Gb байтов, а не ~ 750MB.Сконструированный «гаплоидный» геном согласно NCBI в настоящее время имеет размер 3436687 КБ или 3,436687 ГБ.Проверьте здесь для себя.
Гаплоид = единичная копия хромосомы.Диплоид = две версии гаплоида.У людей есть 22 уникальные хромосомы x 2 = 44. Мужская 23-я хромосома - X, Y и составляет 46 в общей сложности.Самки 23-го хром.равно X, X и, следовательно, составляет 46.
Для мужчин это будет 23 + 1 хромосома при хранении данных на жестком диске, а для женщин - 23 хромосомы, что объясняет небольшие различия, упомянутые время от времени в ответах.Х хром.из мужчин равен X хром.от женщин.
Таким образом, загрузка генома (23 + 1) в память осуществляется частями через BLAST с использованием созданных баз данных из файлов fasta.Независимо от версии на молнии или нет, нуклеотиды вряд ли будут сжаты.В первые дни одним из приемов была замена тандемных повторов (GACGACGAC с более коротким кодированием, например, «3GAC»; от 9 байтов до 4 байтов).Причина была в том, чтобы сэкономить место на жестком диске (площадь пластин жесткого диска 500bm-2GB с 7.200 об / мин и разъемов SCSI).Для поиска последовательности это также было сделано с запросом.
Если "кодированный нуклеотид" память будет 2-битной на букву, то вы получите для байта:
A= 00
C = 01
G = 10
T = 11
Только так вы полностью получаете прибыль с позиций 1,2,3,4,5,6,7и 8 для 1 байта кодирования.Например комбинация 00.01.10.11, соответствующая «ACTG».Это одно отвечает за уменьшение размера файла в 4 раза, как мы видим в других ответах.Таким образом, размер 3.4 Гб будет уменьшен до 0.85917175 Гб ... ~ 860 МБ, включая требуемую программу преобразования (23 КБ-4 МБ).
Но ... в биологии вы хотите иметь возможность что-то читать, поэтому сжатие gzippedболее, чем достаточно.Разархивированный вы все еще можете прочитать.Если это заполнение байтов было использовано, становится труднее читать данные.Вот почему fasta-файлы в действительности являются текстовыми файлами.