См. ftp: //ftp.ncbi.nlm.nih.gov/gene/DATA/README для получения подробной информации о том, что находится в каких файлах на ftp-сайте NCBI.
Если вы хотите получить данные из самого NCBI, вам нужно объединить несколько файлов, возможно, gene2accession (который также включает информацию о местоположении) и файл gene_info, который сопоставляет идентификаторы с символами и именами и т. Д.
Вероятно, более удобно перейти на сайт UCSC для получения этой информации, они также предоставляют общедоступную базу данных mysql, если вы хотите изучить, что доступно:
http://workshops.arl.arizona.edu/sql1/sql_workshop/mysql/mysqlclient.html
Если вы просто хотите получить данные о человеке, мыши или крысе, то База данных генома крысы уже скомпилировала нужные вам данные (свежие из источников NCBI и Ensembl):
FTP: //rgd.mcw.edu/pub/data_release
например. для человеческих данных смотрите: ftp: //rgd.mcw.edu/pub/data_release/GENES_HUMAN.txt