Соответствие содержимого между тегами в веб-источнике - PullRequest
0 голосов
/ 08 июня 2010

Мне было интересно, что может быть самым быстрым и простым способом перехвата текста между тегами в строке.
Например, у меня есть эта строка: Lorem ipsum <a>dolor sit amet</a>, <b>consectetur</b> adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
И мне нужно найти текст, который находится между тегами <a> </a> и <b> </b>.

Спасибо.

Ответы [ 3 ]

1 голос
/ 08 июня 2010

Разбор HTML очень и очень труден, потому что веб-страницы редко бывают правильными, и вы найдете много несовпадающих тегов и странных странных вещей.

Используйте HTMLAgilityPack , если этодля страниц реального мира.

1 голос
/ 08 июня 2010

<a>(.*)</a>.*<b>(.*)</b> будет работать в данном конкретном случае , но в общем случае не стоит разбирать html с помощью регулярных выражений.Вместо этого используйте анализатор HTML / XML.

Попробуйте HTMLAgilityPack : В этом ТАК объясняется, как его использовать.

0 голосов
/ 08 июня 2010
.+<a>(.+)</a>.+<b>(.+)</b>.+

Первая группа совпадений будет содержать текст между A-тегами, а вторая группа - между B-тегами.

...