Question

Я пытаюсь проанализировать "неправильный HTML", чтобы исправить это с помощью регулярного выражения Perl.Неправильный HTML-код выглядит следующим образом: foobarfoo

Я хотел бы, чтобы Perl Regex возвращал мне: foo

Я пробовал что-то вроде: '|(<p\b[^>]*>(?!)*?<p[^>]*>)|' безуспешно, потому что я не могу повторить(?!)*?

Есть ли способ в Perl Regex сказать все символы, кроме следующей последовательности (в моем случае )

Christopher Biggs · Answer 1 · 02 марта 2011

Я согласен с Энди. Разбор нетривиального HTML с помощью регулярных выражений - это мир боли.

Внимательно посмотрите на HTML :: TreeBuilder :: XPath и HTML :: DOM для внесения структурных изменений в документы HTML.

Bart Kiers · Answer 2 · 18 февраля 2011

Попробуйте что-то вроде:

<p>(?:(?!</?p>).)*</p>(?!(?:(?!</?p>).)*(<p>|$))

Быстрый отказ:

<p>(?:(?!</?p>).)*</p>

соответствует  ... , что не содержит  и .И часть:

(?!(?:(?!</?p>).)*(<p>|$))

является «истинной», если смотреть в будущее ((?! ... )), нет  или конца ввода ((|$)), без каких-либо  и  между ((?:(?!</?p>).)*).

Демонстрационная версия:

my $txt="<p>aaa aa a</p> <p>foo <p>bar</p> foo</p> <p> bb <p>x</p> bb</p>";
while($txt =~ m/(<p>(?:(?!<\/?p>).)*<\/p>)(?!(?:(?!<\/?p>).)*(<p>|$))/g) {
  print "Found: $1\n";
}

печатает:

Found: <p>bar</p>
Found: <p>x</p>

Обратите внимание, что эта хитрость регулярного выражения работает только для baz в строке:

<p>foo <p>bar</p> <p>baz</p> foo</p>

bar не соответствует!После замены baz вы можете выполнить второй запуск на входе, в этом случае bar будет сопоставлено.

Joel Berger · Answer 3 · 02 марта 2011

Возможно, Marpa::HTML поможет вам. Прочитайте некоторые интересные способности, которые есть у него на блоге автора об этом . Суть в том, что синтаксический анализатор работает с интерпретатором (я, вероятно, получаю неверную семантику), чтобы выяснить, что должно присутствовать, исходя из того, что МОЖЕТ присутствовать в определенном логическом месте кода.

Приведенные здесь примеры исправляют подобные проблемы, с которыми вы, похоже, сталкиваетесь гораздо более последовательно, чем с помощью регулярных выражений, которые неизбежно пострадают от крайних случаев.

Marpa::HTML поставляется с утилитой командной строки, построенной с использованием модуля под названием html_fmt. Это реализует механизм синтаксического анализа, чтобы исправить и распечатать html. Вот пример. Если 'bad.html' содержит foobarfoo, то html_fmt bad.html дает:

<!-- Following start tag is replacement for a missing one -->
<html>
  <!-- Following start tag is replacement for a missing one -->
  <head>
  </head>
  <!-- Preceding end tag is replacement for a missing one -->
  <!-- Following start tag is replacement for a missing one -->
  <body>
    <p>
      foo
    </p>
    <!-- Preceding end tag is replacement for a missing one -->
    <p>
      bar
    </p>
    foo
    <!-- Next line is cruft -->
    </p>
  </body>
  <!-- Preceding end tag is replacement for a missing one -->
</html>
<!-- Preceding end tag is replacement for a missing one -->

Andy Lester · Answer 4 · 02 марта 2011

Если вы пытаетесь проверить HTML, рассмотрите такой модуль, как HTML :: Tidy или HTML :: Lint .

Kamil Szot · Answer 5 · 18 февраля 2011

Это регулярное выражение:

<p>(?:(?!</p>).)*?<p>

при совпадении с

<p>foo<p>bar</p>foo</p>

Результаты в

<p>foo<p>

Как использовать Perl Regex для обнаружения <p>внутри другого <p>

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать Perl Regex для обнаружения <p>внутри другого <p>

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы