Question

Я хочу загрузить все quality_variant_[accession_name].txt файлы с сайта Salk Arabidopsis 1001 Genomes , используя wget в оболочке Bash.

Главная страница со списком образцов: http://signal.salk.edu/atg1001/download.php
Каждое присоединение ссылается на страницу (например, http://signal.salk.edu/atg1001/data/Salk/accession.php?id=Aa_0, где Aa_0 - идентификатор доступа), содержащую еще три ссылки: unsequenced_ [accession], quality_variant_ [accession] и quality_variant_filtered_ [accession]
Меня интересует только ссылка quality_variant_ [accession] (не ссылка quality_variant_filtered_ [accession]), которая переводит вас в файл .txt с данными последовательности (например, http://signal.salk.edu/atg1001/data/Salk/quality_variant_Aa_0.txt)

При выполнении команды, приведенной ниже, интересующие файлы в конечном итоге выводятся (но не загружаются из-за аргумента --spider), демонстрируя, что wget может перемещаться по гиперссылкам страницы на нужные мне файлы.

wget --spider --recursive "http://signal.salk.edu/atg1001/download.php

Я не позволял команде выполняться достаточно долго, чтобы определить, загружаются ли интересующие файлы, но приведенная ниже команда действительно начинает рекурсивную загрузку сайта.

# Arguments in brackets do not impact the performance of the command
wget -r [-e robots=off] [-m] [-np] [-nd] "http://signal.salk.edu/atg1001/download.php"

Однако всякий раз, когда я пытаюсь применить фильтры для извлечения интересующих файлов .txt, будь то --accept-regex, --accept или многих других вариантов, я не могу пройти исходный файл .php.

# This and variants thereof do not work
wget -r -A "quality_variant_*.txt" "http://signal.salk.edu/atg1001/download.php"

# Returns: 
# Saving to: ‘signal.salk.edu/atg1001/download.php.tmp’
# Removing signal.salk.edu/atg1001/download.php.tmp since it should be rejected.

Я мог бы составить список имен доступа и просмотреть эти имена, изменяя URL в команде wget, но я надеялся на динамическую однострочную строку, которая могла бы извлечь все интересующие файлы, даже если идентификаторы доступа были добавлены со временем ,

Спасибо!

Примечание. Интересующие файлы данных содержатся в каталоге http://signal.salk.edu/atg1001/data/Salk/, который также содержит .php или статическую HTML-страницу, которая отображается при посещении этого URL-адреса. Этот URL нельзя использовать в команде wget, потому что, хотя интересующие файлы данных находятся здесь на стороне сервера, страница HTML не содержит ссылок на эти файлы, а содержит ссылки на другой набор .txt файлов, которые мне не нужны .

Использование wget для рекурсивной выборки файлов .txt в файл .php, но фильтры нарушают команду

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование wget для рекурсивной выборки файлов .txt в файл .php, но фильтры нарушают команду

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы