Учитывая HTML-страницу, я хотел бы получить все файлы 'x', которые встроены в файл HTML или связаны с ним, где 'x' равно:
- изображения (JPG, PNG, GIF ...)
- Документы (Word, PowerPoint, PDF ...)
- Flash (.flv, .swf)
Как мне это сделать?
- Таким образом, изображения легко извлекать, потому что они либо связаны со ссылкой, оканчивающейся на (.png | .jpg | ....), либо встроены в тег img
- Документы не могут быть встроены, они могут быть только связаны (со ссылкой, заканчивающейся на .doc | .ppt | .pdf | ...). Так что их тоже легко достать.
Вот моя проблема:
Как получить файлы флэш-памяти, встроенные в веб-страницы?
Пожалуйста, дайте мне псевдо-алгоритм или шаблон регулярных выражений.
Если я ошибаюсь в своих пунктах выше (1. и 2.), пожалуйста, скажите мне тоже.
Спасибо!