Эффективное хранение данных для нуклеотидов с обычными повторами - PullRequest
0 голосов
/ 17 февраля 2019

Я работаю над забавной проблемой, связанной с поиском более эффективного способа хранения генома человеческого малярийного паразита, и я подумал, что было бы полезно получить некоторые из наших идей!

Итак, вот справочная информация: предположим, что мы используем только 2 бита для хранения всех 4 нуклеотидов генома (A, C, T, G), но поскольку геном все еще СУПЕР длинный, мы знаем этозанимает тонну пространства.Тем не менее, мы знаем, что 80% генома - это либо А, либо Т - как мы можем использовать эти знания в своих интересах для более эффективного хранения генома?

Сейчас я играю спара идей:

  1. Найдите какой-нибудь способ кодирования больших строк A или больших строк T - для этого потребуется более 2 бит, но если строки особенно велики, это может уменьшить размер.Например, если «01» был кодом для «T», «1101» мог бы быть кодом для «3 T» (используя обычную двоичную систему после первых двух битов).Это сэкономило бы нам два бита.
  2. Просто сохраните A как '0' и T как '1', чтобы уменьшить количество битов, используемых этими буквами.

У кого-либо еще есть что-то хорошееидеи как сделать это хранилище данных максимально эффективным?Я хотел бы услышать их и обсудить!

...