https://stackoverflow.com/a/2059614/684934 дают хороший намек. В частности, вы, вероятно, ищете что-то вроде [a-zA-Z0-9_\-]+\.(png|jpg|gif|jpeg|tif)
Обратите внимание, однако, что это регулярное выражение, и он ищет только последовательности символов. Если вы просматриваете сайт, который обслуживает динамические изображения, например, с помощью сервлетов, и URI ресурса не заканчивается обычным расширением файла изображения (например, .jsp или .do), тогда регулярное выражение полностью завершится ошибкой. Он также будет подбирать любые «имена изображений» из любого типа текста, который совпадает, который фактически не представляет изображение на странице.
Чтобы сделать работу правильно, вам нужно будет использовать какой-то DOM и пройти элементы <img>
. (И элементы <button>
, которые могут относиться к типу image
... возможно, есть еще теги, которые могут иметь изображения.)