Я очищаю веб-сайт и пытаюсь извлечь определенные элементы из HTML.На сайтах, которые я собираю, есть теги сценариев с кучей информации в них, однако есть одна часть внутри этих тегов, которая меня интересует. Линия в основном выглядит так:
'image':'http://ut5.example.com/t/231/3_b_643435.jpg',
С некоторыми вещами выше и ниже.Теперь это отличается для каждого источника страницы , за исключением, очевидно, домена и некоторых подпапок, в которых хранятся изображения.
Как бы я посмотрел источник для этой конкретной строки и вырезал только URL?Мне нужно было бы использовать регулярные выражения, которые я чувствую, поскольку URL-адреса являются динамическими.
Метод "gsub" делает нечто похожее на то, что я хочу искать, с его возможностью использовать / regex /.Но я не хочу ничего заменять, я просто хочу найти этот URL в исходном коде с помощью / regex / и скопировать его.