Файл Fasta является многолинейным файлом. Это структурировано как
>ID_1
ACGTAGCATGC
>ID_2
AGCTAGTACATC
Итак, чтобы получить последовательности, мне нужно прочитать 1 строку из 2.
У меня есть несколько больших fasta-файлов (120Go на файл) для чтения. Я использую искру, чтобы прочитать эти файлы. В настоящее время я использую это, чтобы получить все последовательности в кадре данных:
val sequences = sc.textFile("path/to/directory").sliding(2, 2).map{case Array(id, seq) => seq}
Позволяет ли эта команда получить все последовательности, зная, что файлы распределены по кластеру искр?)