Ошибка R при подключении к NCBI для доступа к белковым последовательностям с использованием «read.GenBank» - PullRequest
0 голосов
/ 03 декабря 2018

Я пытаюсь получить доступ к данным последовательности белка из NCBI в R, используя функцию read.Genbank:

например,

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", " XP_007536378", 
                  "NP_001268234 XP_004712197", "XP_017531808", "PBC34963","BAN21060",
                  "XP_011342207","ACD03812", "XP_009644718", "XP_023982408",
                  "XP_023982408", "XP_006082035", "BAX24454", "XP_026490557",
                  "AAS10175", "BAO58576", "AAM49148") 

read.GenBank("ref.proteins")

, но я получаю эту ошибку:

Ошибка в файле (файл, "r"): невозможно открыть соединение с 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=ref.proteins&rettype=fasta&retmode=text' Дополнительно: Предупреждение: В файле (файл, "r"): невозможно открыть URL-адрес' https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=ref.proteins&rettype=fasta&retmode=text': HTTP-статус был «400 Bad Request»

Может кто-нибудь помочь?Как исправить проблему с подключением?Из того, что я читал в Интернете, кажется, проблема в Mac OS?спасибо

Ответы [ 2 ]

0 голосов
/ 13 апреля 2019

Вы можете скачать белковые последовательности в файле fasta, используя пакет refseqR.

#Dependencies
install_github("jdieramon/refseqR")
library(refseqR)

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", "XP_007536378")

save_AAfasta_from_xps(ref.proteins, "Downloads/my_proteins")
0 голосов
/ 19 февраля 2019

Вам нужно бросить кавычки вокруг ref.proteins во второй строке.Это работает:

ref.proteins <- c("XP_005327622", "XP_026241994", "NP_001107354", " XP_007536378")
read.GenBank(ref.proteins)
...