Question

Мне нужно поймать содержимое href с помощью регулярных выражений. Например, когда я применяю правило к href = "www.google.com", я хотел бы получить www.google.com. Кроме того, я хотел бы игнорировать все hrefs, которые имеют только # в своем значении.

Теперь, я играл некоторое время, и я придумал это:

href=(?:\"|\')((?:[^#]|.#.|.#|#.)+)(?:\"|\')

Когда я пробую его в http://www.rubular.com/, он работает как шарм, но мне нужно использовать его с preg_replace_callback в PHP, и там я не получаю ожидаемый результат (для тестирования в PHP использовал этот сайт: http://www.pagecolumn.com/tool/pregtest.htm).

В чем здесь моя ошибка?

Linus Kleen · Answer 1 · 28 октября 2011

Поскольку анализ HTML с использованием регулярных выражений - это Bad Thing ™ , я предлагаю менее грубый метод:

$dom = new DomDocument;
$dom->loadHTML($pageContent);

$elements = $dom->getElementsByTagName('a');

for ($n = 0; $n < $elements->length; $n++) {
    $item = $elements->item($n);
    $href = $item->getAttribute('href');
    // here's your href attribute
}

Madara Uchiha · Answer 2 · 28 октября 2011

Прежде всего: НЕ ИСПОЛЬЗУЙТЕ РЕГЕКС ДЛЯ РАЗДЕЛЕНИЯ HTML

Я бы сказал что-то вроде:

href=("|')?([^\s"'])+("|')?

Получение содержимого значения href

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение содержимого значения href

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы