Чтение BED-файлов в pandas dataframe (windows) - PullRequest
0 голосов
/ 01 октября 2019

Для проекта по биоинформатике я хотел бы прочитать файл .BED в кадр данных pandas и не имею ни малейшего понятия, как я могу это сделать и какие инструменты / программы требуются. Ничто из того, что я нашел в интернете, не подходило для меня, так как я работаю на windows10 с Python 3.7 (дистрибутив Anaconda).

Любая помощь будет признательна.

1 Ответ

0 голосов
/ 01 октября 2019

Согласно https://software.broadinstitute.org/software/igv/BED:

Файл BED (.bed) представляет собой текстовый файл с разделителями табуляции, который определяет дорожку элемента.

Согласнодо http://genome.ucsc.edu/FAQ/FAQformat#format1 содержит до 12 полей (столбцов) и возможные строки комментариев, начинающиеся со слова 'track'. Ниже приведена минимальная программа для чтения такого bed файла в файл данных pandas.

import pandas as pd

df = pd.read_csv('so58178958.bed', sep='\t', comment='t', header=None)
header = ['chrom', 'chromStart', 'chromEnd', 'name', 'score', 'strand', 'thickStart', 'thickEnd', 'itemRgb', 'blockCount', 'blockSizes', 'blockStarts']
df.columns = header[:len(df.columns)]

Это просто очень простой фрагмент кода, который обрабатывает все строки, начинающиеся с 't', в качестве комментариев. Это должно работать, так как все поля 'chrom' должны начинаться с 'c', 's' или цифры.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...