Предупреждение: синтаксический анализ HTML / XML с использованием регулярных выражений обычно не очень хорошая идея .Вместо этого используйте язык, такой как Ruby или Python, который имеет библиотеку синтаксического анализатора XML, которая может интеллектуально интерпретировать структуру страницы.
Вот несколько вопросов, которые могут вам помочь (многие другие - только быстрый поиск):
Обновление:
В своем комментарии вы упомянули, что выВы уже знаете, как делать извлечение ссылок в Python, но вы не хотите использовать скрипт Python, который напрямую вызывает wget
.Вы все еще можете решить эту проблему с помощью Python (что, вероятно, является самым простым решением, поскольку вы уже знаете, как это сделать).Если ваш скрипт Python печатает извлеченные имена файлов в стандартный вывод с новой строкой после каждого имени, вы можете использовать любую из следующих команд оболочки, чтобы сделать то, что вы хотите сделать:
python your_script.py >filenames.txt
wget -i filenames.txt
или
python your_script.py | wget -i -
Это передаст данные, извлеченные вашим скриптом, в wget
, не требуя, чтобы ваш скрипт вызывал wget
через системный вызов.