Question

Как легко извлечь содержимое веб-страниц, которые встроены только в html-страницы (например, img, pdf, flv, doc, rtf, wmc и т. Д.), А не в css и css фоновые изображения, javascript.

Я переношу контент старого сайта на новый. повторная загрузка всех изображений, связанных PDF, FLV и т. д.

r3zn1k · Answer 1 · 26 ноября 2009

Если вы использовали XHTML, вы можете использовать обычный XML-парсер.

Vincent Osinga · Answer 2 · 26 ноября 2009

Класс python для BeautifulSoup - очень хороший синтаксический анализатор, который чрезвычайно удобен при выполнении таких операций.

Brij · Answer 3 · 27 ноября 2009

вы можете использовать Firebug для Firefox только для чтения.
Вы можете создать свое собственное приложение, используя следующее:
http://www.codeplex.com/htmlagilitypack

Alan Haggai Alavi · Answer 4 · 26 ноября 2009

Для этого вам понадобится анализатор HTML. В Perl есть модуль HTML :: Parser .

Как легко извлечь содержимое веб-страниц, которые встраиваются в html-страницы внутри <body>?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как легко извлечь содержимое веб-страниц, которые встраиваются в html-страницы внутри <body>?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов