Как прочитать файл bam (выровненную информацию) в SPARK? - PullRequest
0 голосов
/ 31 октября 2018

Недавно мне пришлось обрабатывать файлы bam, сгенерированные BWA или другими инструментами выравнивания на SPARK, используя Python или Scala, как преобразовать этот двоичный файл в RDD, чтобы я мог делать некоторые статистические данные по каждой последовательности чтения и другую информацию? Может ли кто-нибудь иметь опыт или привести пример? Я немного прочитал функцию binaryRecords () PySpark и Spark-bam, которая, похоже, не работает.

1 Ответ

0 голосов
/ 31 октября 2018

Вы можете использовать PySam в Python. Смотрите документы здесь: https://pysam.readthedocs.io/en/latest/api.html

...