Как легко извлечь содержимое веб-страниц, которые встраиваются в html-страницы внутри <body>? - PullRequest
0 голосов
/ 26 ноября 2009

Как легко извлечь содержимое веб-страниц, которые встроены только в html-страницы (например, img, pdf, flv, doc, rtf, wmc и т. Д.), А не в css и css фоновые изображения, javascript.

Я переношу контент старого сайта на новый. повторная загрузка всех изображений, связанных PDF, FLV и т. д.

Ответы [ 4 ]

1 голос
/ 26 ноября 2009

Если вы использовали XHTML, вы можете использовать обычный XML-парсер.

1 голос
/ 26 ноября 2009

Класс python для BeautifulSoup - очень хороший синтаксический анализатор, который чрезвычайно удобен при выполнении таких операций.

0 голосов
/ 27 ноября 2009
  1. вы можете использовать Firebug для Firefox только для чтения.
  2. Вы можете создать свое собственное приложение, используя следующее:
    http://www.codeplex.com/htmlagilitypack
0 голосов
/ 26 ноября 2009

Для этого вам понадобится анализатор HTML. В Perl есть модуль HTML :: Parser .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...