Какой хороший способ реализовать получение консенсусной последовательности в Java? - PullRequest
2 голосов
/ 21 декабря 2011

У меня следующая проблема:

  • У меня есть 2 последовательности последовательностей ДНК (состоящие из ACGT), которые отличаются на одну или две пятна.
  • Нахождение различий тривиально, поэтому давайте просто проигнорируем это
  • для каждого различия, я хочу получить символ консенсуса (например, M для A или C), который представляет обе возможности

Я знаю, что мог бы просто сделать огромный каскад if , но я думаю, что это не только ужасно и сложно поддерживать, но и медленно.

Что такое быстрый и простой в обслуживании способ реализации этого? Может быть, какая-то таблица поиска или матрица для комбинаций? Любые примеры кода будут с благодарностью. Я бы использовал Biojava, но текущая версия, которую я уже использую, не предлагает эту функциональность (или я еще не нашел ее ...).

Обновление : кажется, здесь немного путаницы. Символ консенсуса - это один символ, который обозначает один символ в обеих последовательностях.

String1 и String2, например, "ACGT" и "ACCT" - они не соответствуют позиции 2. Так, я хочу, чтобы консенсусная строка была ACST, потому что S обозначает "либо C, либо G"

Я хочу создать такой метод:

char getConsensus(char a, char b)

Обновление 2 : некоторые из предложенных методов работают, если у меня только 2 последовательности. Мне может потребоваться выполнить несколько итераций этих «согласований», чтобы входной алфавит мог увеличиться с «ACGT» до «ACGTRYKMSWBDHVN», что сделало бы некоторые из предложенных подходов довольно громоздкими для написания и поддержки.

Ответы [ 6 ]

2 голосов
/ 21 декабря 2011

Простое, быстрое решение - использовать побитовое ИЛИ.

При запуске инициализировать две таблицы:

  • Разреженная таблица из 128 элементов для сопоставления нуклеотида с одним битом. «Разреженный» означает, что вам нужно только указать элементы, которые вы будете использовать: коды IUPAC в верхнем и нижнем регистре.
  • 16-элементная таблица для отображения побитового консенсуса с нуклеотидным кодом IUPAC.

Чтобы получить консенсус для одной позиции:

  1. Используйте нуклеотиды в качестве индексов в первой таблице, чтобы получить побитовые представления.
  2. Побитовое ИЛИ побитовое представление.
  3. Использовать побитовое ИЛИ в качестве индекса для таблицы из 16 элементов.

Вот простое побитовое представление, с которого можно начать:

    private static final int A = 1 << 3;
    private static final int C = 1 << 2;
    private static final int G = 1 << 1;
    private static final int T = 1 << 0; 

Установите членов первой таблицы следующим образом:

    characterToBitwiseTable[ 'd' ] = A | G | T;
    characterToBitwiseTable[ 'D' ] = A | G | T;

Установите элементы второго стола следующим образом:

    bitwiseToCharacterTable[ A | G | T ] = 'd';
2 голосов
/ 21 декабря 2011

Вы можете просто использовать HashMap<String, String>, который сопоставляет конфликты / различия с символами консенсуса.Вы можете либо «ввести жесткий код» (ввести код своего приложения), либо заполнить его во время запуска приложения из какого-либо внешнего источника (файла, базы данных и т. Д.).Тогда вы просто используете его всякий раз, когда у вас есть разница.

String consensusSymbol = consensusMap.get(differenceString);

РЕДАКТИРОВАТЬ: чтобы удовлетворить ваш запрос API;]

Map<String, Character> consensusMap; // let's assume this is filled somewhere
...
char getConsensus(char a, char b) {
    return consensusMap.get("" + a + b);
}

Я понимаю, что это выглядит грубо, но я думаю, вы понимаете,Это может быть немного медленнее, чем справочная таблица, но также намного проще в обслуживании.

ДАЙТЕ ДРУГОЕ РЕДАКТИРОВАНИЕ:

Если вы действительно хотите что-то сверхбыстрое, и вы действительно используете тип charВы можете просто создать 2d таблицу и индексировать ее с помощью символов (поскольку они интерпретируются как числа).

char lookup[][] = new char[256][256]; // all "english" letters will be below 256
//... fill it... e. g. lookup['A']['C'] = 'M';
char consensus = lookup['A']['C'];
0 голосов
/ 22 декабря 2011

Возможное решение с использованием перечислений, вдохновленных pablochan, с небольшим вводом от biostar.stackexchange.com :

enum lut {
     AA('A'), AC('M'), AG('R'), AT('W'), AR('R'), AY('H'), AK('D'), AM('M'), AS('V'), AW('W'), AB('N'), AD('D'), AH('H'), AV('V'), AN('N'),
     CA('M'), CC('C'), CG('S'), CT('Y'), CR('V'), CY('Y'), CK('B'), CM('M'), CS('S'), CW('H'), CB('B'), CD('N'), CH('H'), CV('V'), CN('N'),
     GA('R'), GC('S'), GG('G'), GT('K'), GR('R'), GY('B'), GK('K'), GM('V'), GS('S'), GW('D'), GB('B'), GD('D'), GH('N'), GV('V'), GN('N'),
     TA('W'), TC('Y'), TG('K'), TT('T'), TR('D'), TY('Y'), TK('K'), TM('H'), TS('B'), TW('W'), TB('B'), TD('D'), TH('H'), TV('N'), TN('N'),
     RA('R'), RC('V'), RG('R'), RT('D'), RR('R'), RY('N'), RK('D'), RM('V'), RS('V'), RW('D'), RB('N'), RD('D'), RH('N'), RV('V'), RN('N'),
     YA('H'), YC('Y'), YG('B'), YT('Y'), YR('N'), YY('Y'), YK('B'), YM('H'), YS('B'), YW('H'), YB('B'), YD('N'), YH('H'), YV('N'), YN('N'),
     KA('D'), KC('B'), KG('K'), KT('K'), KR('D'), KY('B'), KK('K'), KM('N'), KS('B'), KW('D'), KB('B'), KD('D'), KH('N'), KV('N'), KN('N'),
     MA('M'), MC('M'), MG('V'), MT('H'), MR('V'), MY('H'), MK('N'), MM('M'), MS('V'), MW('H'), MB('N'), MD('N'), MH('H'), MV('V'), MN('N'),
     SA('V'), SC('S'), SG('S'), ST('B'), SR('V'), SY('B'), SK('B'), SM('V'), SS('S'), SW('N'), SB('B'), SD('N'), SH('N'), SV('V'), SN('N'),
     WA('W'), WC('H'), WG('D'), WT('W'), WR('D'), WY('H'), WK('D'), WM('H'), WS('N'), WW('W'), WB('N'), WD('D'), WH('H'), WV('N'), WN('N'), 
     BA('N'), BC('B'), BG('B'), BT('B'), BR('N'), BY('B'), BK('B'), BM('N'), BS('B'), BW('N'), BB('B'), BD('N'), BH('N'), BV('N'), BN('N'),
     DA('D'), DC('N'), DG('D'), DT('D'), DR('D'), DY('N'), DK('D'), DM('N'), DS('N'), DW('D'), DB('N'), DD('D'), DH('N'), DV('N'), DN('N'),
     HA('H'), HC('H'), HG('N'), HT('H'), HR('N'), HY('H'), HK('N'), HM('H'), HS('N'), HW('H'), HB('N'), HD('N'), HH('H'), HV('N'), HN('N'),
     VA('V'), VC('V'), VG('V'), VT('N'), VR('V'), VY('N'), VK('N'), VM('V'), VS('V'), VW('N'), VB('N'), VD('N'), VH('N'), VV('V'), VN('N'),
     NA('N'), NC('N'), NG('N'), NT('N'), NR('N'), NY('N'), NK('N'), NM('N'), NS('N'), NW('N'), NB('N'), ND('N'), NH('N'), NV('N'), NN('N');

     char consensusChar = 'X';

     lut(char c) {
         consensusChar = c;
     }

     char getConsensusChar() {
         return consensusChar;
     }
}

char getConsensus(char a, char b) {
    return lut.valueOf("" + a + b).getConsensusChar();
}
0 голосов
/ 21 декабря 2011

Рассматривается чтение нескольких последовательностей одновременно - я бы:

  1. поместил бы все символы с одной и той же позиции в последовательности в набор
  2. сортировал и объединял значения в наборе и использовалenum.valueOf (), как в примере с fge,
  3. полученное значение используется в качестве ключа для EnumMap с символами консесуса в качестве значений

Возможно, существуют способы горячей оптимизации ипервые шаги.

0 голосов
/ 21 декабря 2011

Учитывая, что все они являются уникальными символами, я бы пошел на Enum:

public Enum ConsensusSymbol
{
    A("A"), // simple case
    // ....
    GTUC("B"),
    // etc
    // last entry:
    AGCTU("N");

    // Not sure what X means?

    private final String symbol;

    ConsensusSymbol(final String symbol)
    {
        this.symbol = symbol;
    }

    public String getSymbol()
    {
        return symbol;
    }
}

Затем, когда вы столкнулись с разницей, используйте .valueOf():

final ConsensusSymbol symbol;

try {
    symbol = ConsensusSymbol.valueOf("THESEQUENCE");
} catch (IllegalArgumentException e) { // Unknown sequence
    // TODO
}

Например, если вы встретите GTUC в качестве строки, Enum.valueOf("GTUC") вернет значение перечисления GTUC, а вызов getSymbol() для этого значения вернет "B".

0 голосов
/ 21 декабря 2011

Возможных комбинаций около 20. Так что нет реальной проблемы производительности.Если вы не хотите делать большой блок if else, самым быстрым решением будет построение структуры данных Tree.http://en.wikipedia.org/wiki/Tree_data_structure. Это самый быстрый способ сделать то, что вы хотите сделать.

В дереве вы кладете все возможные комбинации и вводите строку, и она пересекает дерево, чтобы найти самое длинное соответствиепоследовательность для символа

Хотите ли вы иллюстрированный пример?

PS : Все программные средства искусственного интеллекта используют приложение Tree, которое является самым быстрым и наиболее адаптированным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...