У меня есть большой набор данных нуклеотидных последовательностей (проще говоря, длинных строк), который преобразуется в матрицу 104 * 13440, полную символов. Мой проект вынуждает меня выполнять вырожденное сопоставление строк, одновременно исследуя все возможные состояния / возможности (т. Е. Никакой необычной эвристики и / или скрининга). Поскольку набор данных настолько велик, ручная проверка всех кортежей слов за символом очень расстраивает и усложняет вычисления.
Будет ли преобразование символов в соответствующий двоичный файл и реализация второстепенных нейронных сетей с использованием побитовых сравнений сэкономить время обработки и потребление памяти по сравнению с простым сравнением символов?
Я использую Python 3.
Забыл упомянуть, кортежи слов перекрываются, размер которых варьируется от 15-25 символов / кортеж, поэтому вы можете увидеть дилемму