Как загрузить файлы данных из ENA с большей пропускной способностью? - PullRequest
0 голосов
/ 13 декабря 2018

Привет, я пытаюсь загрузить около 4000 файлов Fastq с ftp-сервера ENA, используя следующую команду цикла:

while read i; do n=$(echo "$i" | sed -E 's/(SRR...).*/\1/'); wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/$n/$i/$i*; done  < IDS.txt 

Однако у меня есть полоса пропускания 20 МБ для загрузки, но когда я загружаю, скорость загрузки составляет от 100Только 350 кбит / с, и, следовательно, загрузка данных занимает много времени.У кого-нибудь есть идея Асперы?или что-нибудь еще, кто может помочь или порекомендовать?

1 Ответ

0 голосов
/ 19 декабря 2018

Существует две возможные причины, по которым вы используете пропускную способность ниже, чем ваша общая доступная пропускная способность:

  1. Ваш провайдер регулирует пропускную способность для каждого соединения.То есть каждое соединение HTTP (S) имеет ограниченную пропускную способность.В этом случае использование нескольких потоков / процессов может быть очень полезным.Для этого я бы рекомендовал использовать GNU Wget2 .Wget2 - это следующая версия Wget, написанная с поддержкой многопоточности.Он все еще находится в альфа-фазе, но мы считаем, что он достаточно готов для публичного использования.
  2. Сервер имеет ограниченную пропускную способность.Если сервер ограничивает общую пропускную способность, вы ничего не можете сделать, чтобы улучшить свои скорости.

Полное раскрытие информации: я поддерживаю как GNU Wget, так и GNU Wget2.

...