Поиск данных аннотаций в формате GFF для нуклеотидов NCBI с помощью Entrez - PullRequest
0 голосов
/ 01 апреля 2019

Я работаю с бактериальными последовательностями из базы данных нуклеотидов NCBI. Если у меня есть вступление, например NC_002663 и мне нужны аннотации в GFF, как бы я легко это сделал, используя Entrez (предпочтительно Biopython)?

Если я иду в NCBI запись , я вижу ссылку на сборку. Есть ли простой способ программного доступа к нему? Сервис Esummary не возвращает такие ссылки:

handle = Entrez.esummary(db='nucleotide', id='NC_002663')
record = Entrez.read(handle)

[DictElement({'Item': [], 'Id': '15601865', 'Caption': 'NC_002663', 'Title': 'Pasteurella multocida subsp. multocida str. Pm70, complete genome', 'Extra': 'gi|15601865|ref|NC_002663.1|[15601865]', 'Gi': IntegerElement(15601865, attributes={}), 'CreateDate': '2001/09/10', 'UpdateDate': '2018/01/11', 'Flags': IntegerElement(800, attributes={}), 'TaxId': IntegerElement(272843, attributes={}), 'Length': IntegerElement(2257487, attributes={}), 'Status': 'live', 'ReplacedBy': '', 'Comment': '  ', 'AccessionVersion': 'NC_002663.1'}, attributes={})]

Я мог бы, возможно, выполнить поиск в базе данных Assembly с помощью "Заголовка", но, похоже, можно найти лучший способ (без такого количества вызовов API). Спасибо!

1 Ответ

1 голос
/ 01 апреля 2019

Я не уверен, позволяет ли NCBI Nucleotide GFF загружать программно (через функцию `efetch´).Вы можете получить доступ к файлам fasta или genbank таким образом, но GFF не были перечислены.

Вы можете

  • загрузить его вручную со своей веб-страницы (если у вас есть только несколько файлов для загрузки)
  • получить файл genbank с функцией Entrez.efetch ипреобразовать его в GFF
  • скачать его с помощью инструмента поиска файлов (например, wget или др.).

Также имеется пакет biomart.В его реализации R упоминается функция getGFF, которая может запрашивать несколько баз данных (но не базу данных нуклеотидов).Вы можете проверить, имеет ли его реализация Python те же функциональные возможности, и можете ли вы найти те же файлы оттуда.

...