Question

Учитывая HTML-страницу, я хотел бы получить все файлы 'x', которые встроены в файл HTML или связаны с ним, где 'x' равно:

изображения (JPG, PNG, GIF ...)
Документы (Word, PowerPoint, PDF ...)
Flash (.flv, .swf)

Как мне это сделать?

Таким образом, изображения легко извлекать, потому что они либо связаны со ссылкой, оканчивающейся на (.png | .jpg | ....), либо встроены в тег img
Документы не могут быть встроены, они могут быть только связаны (со ссылкой, заканчивающейся на .doc | .ppt | .pdf | ...). Так что их тоже легко достать.

Вот моя проблема:

Как получить файлы флэш-памяти, встроенные в веб-страницы?

Пожалуйста, дайте мне псевдо-алгоритм или шаблон регулярных выражений.

Если я ошибаюсь в своих пунктах выше (1. и 2.), пожалуйста, скажите мне тоже.

Спасибо!

fortran · Answer 1 · 09 июля 2009

Я бы использовал анализатор XML на основе событий (например, SAX) и написал бы правила для тегов и, чтобы получить атрибуты src и href.

Mark Rushakoff · Answer 2 · 09 июля 2009

Расширение Firefox DownThemAll позволяет щелкнуть правой кнопкой мыши страницу и загрузить все медиафайлы с указанным расширением. Это открытый исходный код, так что вы можете посмотреть на их код и посмотреть, как они его реализовали.

Разбор мультимедийных файлов со страницы HTML (на любом языке)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор мультимедийных файлов со страницы HTML (на любом языке)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы