Создание регулярного выражения со специальными символами в Web Harvest - PullRequest
0 голосов
/ 10 февраля 2011

Я использую веб-сбор (http://web -harvest.sourceforge.net /), инструмент для поиска веб-страниц с открытым исходным кодом.

Регулярное выражение, которое я пытаюсь использовать, содержит символы "<", ">" (потому что я пытаюсь удалить все входящие теги HTML). Это вызывает проблему, поскольку содержимое элементов должно состоять из правильно сформированных символьных данных или разметки.

Мне нужно как-то избежать выражения, но не могу понять, как.

Есть идеи?

1 Ответ

1 голос
/ 10 февраля 2011

Сделать регулярное выражение правильно сформированным XML.Попробуйте заменить < на &lt; и > на &gt;.Точно так же, если у вас есть & в вашем регулярном выражении, вам нужно заменить его на &amp;.

Также я бы предложил вам использовать HTML-парсер вместо регулярного выражения для этой задачи.

...