Если это вопрос программирования, то я бы посоветовал вам написать собственное регулярное выражение для разбора всего найденного содержимого. Целевые теги - IMG и A для стандартного HTML. Для JAVA
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
это вместе с классами Pattern и Matcher должно определять начало тегов. Добавьте тег LINK, если вы также хотите CSS.
Однако, это не так просто, как вы могли изначально подумать. Многие веб-страницы не очень хорошо сформированы. Извлечь все ссылки программным способом, которые человек может «распознать», действительно сложно, если вам нужно учесть все неправильные выражения.
Удачи!