Извлечение текста из гигантского HTML-файла с помощью Nokogiri / xpath - PullRequest
1 голос
/ 20 февраля 2012

Я очищаю веб-сайт и пытаюсь извлечь определенные элементы из HTML.На сайтах, которые я собираю, есть теги сценариев с кучей информации в них, однако есть одна часть внутри этих тегов, которая меня интересует. Линия в основном выглядит так:

'image':'http://ut5.example.com/t/231/3_b_643435.jpg',

С некоторыми вещами выше и ниже.Теперь это отличается для каждого источника страницы , за исключением, очевидно, домена и некоторых подпапок, в которых хранятся изображения.

Как бы я посмотрел источник для этой конкретной строки и вырезал только URL?Мне нужно было бы использовать регулярные выражения, которые я чувствую, поскольку URL-адреса являются динамическими.

Метод "gsub" делает нечто похожее на то, что я хочу искать, с его возможностью использовать / regex /.Но я не хочу ничего заменять, я просто хочу найти этот URL в исходном коде с помощью / regex / и скопировать его.

1 Ответ

1 голос
/ 20 февраля 2012

Согласно вашим комментариям, это то, что вы ищете, я думаю

var regex = /http.+/;

Пример http://jsfiddle.net/Km9ZB/

...