Результаты электронного поиска Entrez не совпадают с результатами онлайн - PullRequest
0 голосов
/ 04 июня 2018

Я использую приведенный ниже код для выполнения esearch , но идентификаторы, которые я получаю из IdList , не совпадают с идентификаторами при онлайн-поиске.

from Bio import Entrez
Entrez.email = "myEmail@gmail.com"
handle = Entrez.esearch(db = "nucleotide", term = "chordata[orgn] AND 
chromosome", retmax = 10, idtype = "acc")
genome_ids = Entrez.read(handle)['IdList']
print(genome_ids)

Когда я распечатываю идентификаторы, они не совпадают с идентификаторами в Интернете. Кто-нибудь знает почему?Это идентификаторы, которые я получаю при распечатке genome_ids:

['NG_017163.2', 'NM_017553.3', 'NG_059281.1', 'NM_005101.4', 
'MH423692.1', 'MH423691.1', 'MH423690.1', 'MH423689.1', 'MH423688.1', 
'MH423687.1']

Вот ссылка на онлайн-поиск: https://www.ncbi.nlm.nih.gov/nuccore/?term=chordata%5Borgn%5D+AND+chromosome

Также кто-нибудь знает, как я могу загрузить хромосомную имитохондриальный геном всех организмов из типа хордовых. Я хочу сделать это с помощью BioPython через E-утилиты.

1 Ответ

0 голосов
/ 07 июня 2018

Как мне загрузить хромосомный и митохондриальный геном всех организмов из типа хордовых

  1. Перейти к https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi
  2. Введите chordataв поле «поиск» выберите complete name в раскрывающемся списке
  3. Введите большое число для уровней (например, 30) и выберите фильтр has genome sequence в раскрывающемся списке
  4. Установите флажок nucleotide

Теперь вы увидите полное таксономическое дерево хордаты с его подтаксами.Число за каждым таксоном является числом последовательностей для этого таксона.Итак, NCBI содержит 84 366 537 различных последовательностей аккордов.

Возможно, у вас недостаточно места для их загрузки, поэтому сделайте выбор, нажмите номер позади таксиста и выберите Send to> File> FASTA.

...