Рекомендации по хранению данных последовательности ДНК в MySQL - PullRequest
0 голосов
/ 26 июня 2019

Я создаю базу данных, в которой будут храниться данные последовательности ДНК, которые представляют собой строки, подобные этой: 'atcgatcgatcg', и данные последовательности белков, которые также являются строками, подобными этой: 'MKLPKRML'.

Я новичок в управлении MySQL. Я хочу попросить вас правильно настроить эти столбцы с точки зрения типов данных, набора символов и параметров сортировки. Будет около миллиона рядов последовательностей ДНК и белков, и я хочу использовать сравнение строк как можно более высокую производительность.

Я читал об этой проблеме, и у меня есть эти выводы и сомнения

  1. Я мог бы использовать VARCHAR (MAX), потому что длина моих строк не будет превышать 65 535 символов.

  2. Сравнение полей BOLD - быстрее. В этом случае лучше, чем VARCHAR? Я также думаю о проблемах, связанных с извлечением данных, поскольку извлечение должно быть в строковом типе, а не в байтах

  3. Лучше ли использовать латиницу-1 вместо utf-8? Я храню только алфавит без специальных символов

Спасибо за помощь!

...