скачать ссылки с веб-страницы с переименованием - PullRequest
0 голосов
/ 03 июля 2011

Я пытаюсь найти способ автоматической загрузки всех ссылок с веб-страницы, но я также хочу переименовать их. например:

<a href = fileName.txt> Name I want to have </a>

Я хочу иметь возможность получить файл с именем «Имя, которое я хочу иметь» (я не беспокоюсь о расширении).

Я знаю, что могу получить исходный код страницы, затем проанализировать все ссылки и загрузить их все вручную, но мне интересно, есть ли какие-либо встроенные инструменты для этого.

lynx --dump | grep http:// | cut -d ' ' -f 4

напечатает все ссылки, которые можно получить пакетным способом с помощью wget - но есть ли способ переименовать ссылки на лету?

Ответы [ 2 ]

1 голос
/ 03 июля 2011

Я сомневаюсь, что что-нибудь делает это из коробки. Я предлагаю вам написать скрипт на Python или аналогичный для загрузки страницы и загрузить исходный код (попробуйте библиотеку Beautiful Soup для толерантного анализа). Тогда вам просто нужно пройтись по источнику, чтобы захватить ссылки с их атрибутами и текстом, и загрузить файлы с нужными именами. За исключением Beautiful Soup (если вам нужно разобрать небрежный HTML), все, что вам нужно, встроено в Python.

0 голосов
/ 03 июля 2011

Я решил проблему, полностью преобразовав веб-страницу в юникод (используя встроенное преобразование notepad ++)

Затем я написал небольшой сценарий оболочки, в котором для извлечения всех использовались команды cat, awk и wget.данные.

К сожалению, я не смог автоматизировать процесс, поскольку не нашел инструментов для linux, которые бы конвертировали всю страницу из KOI8-R в юникод.

...