Разбор мультимедийных файлов со страницы HTML (на любом языке) - PullRequest
0 голосов
/ 09 июля 2009

Учитывая HTML-страницу, я хотел бы получить все файлы 'x', которые встроены в файл HTML или связаны с ним, где 'x' равно:

  • изображения (JPG, PNG, GIF ...)
  • Документы (Word, PowerPoint, PDF ...)
  • Flash (.flv, .swf)

Как мне это сделать?

  1. Таким образом, изображения легко извлекать, потому что они либо связаны со ссылкой, оканчивающейся на (.png | .jpg | ....), либо встроены в тег img
  2. Документы не могут быть встроены, они могут быть только связаны (со ссылкой, заканчивающейся на .doc | .ppt | .pdf | ...). Так что их тоже легко достать.

Вот моя проблема:

Как получить файлы флэш-памяти, встроенные в веб-страницы?

Пожалуйста, дайте мне псевдо-алгоритм или шаблон регулярных выражений.

Если я ошибаюсь в своих пунктах выше (1. и 2.), пожалуйста, скажите мне тоже.

Спасибо!

Ответы [ 2 ]

0 голосов
/ 09 июля 2009

Я бы использовал анализатор XML на основе событий (например, SAX) и написал бы правила для тегов и, чтобы получить атрибуты src и href.

0 голосов
/ 09 июля 2009

Расширение Firefox DownThemAll позволяет щелкнуть правой кнопкой мыши страницу и загрузить все медиафайлы с указанным расширением. Это открытый исходный код, так что вы можете посмотреть на их код и посмотреть, как они его реализовали.

...