Как перестать зацикливать выражение регулярного выражения - PullRequest
0 голосов
/ 20 июня 2011

Я пытаюсь извлечь информацию из таблицы на веб-странице с исходной информацией, например

    team.php?t=4636&s=98700">Memphis</a>          CUSA   1-11   117 ...
    team.php?t=66&s=98700">Akron</a>            MAC    ...
etc

Я получаю информацию о том, что являюсь именами колледжа - после использования regex

team.php.*?>(.*?)<

Проблема в том, что на веб-странице есть еще одна похожая таблица, и эта информация также появляется. Существует некоторый промежуточный текст, который я могу использовать для остановки процесса, например, «Таблица 2», но я не уверен, как включить его в выражение

ТИА

Далее к комментариям ниже. Оригинал здесь Я просто хочу извлечь названия команд примерно на одной трети пути, Орегон, Оберн и т. Д. Без конференций внизу столбца

Я создал xml dom и проанализировал его как можно лучше, показывая колледж и ссылку, но это не дает мне только набор колледжей, которые я ищу

1 Ответ

0 голосов
/ 03 апреля 2016

Это регулярное выражение работает при копировании-вставке текста с веб-сайта: (\d+ [A-Z][a-z](?:[^\d\s]\s?)+).

Если вы хотите избежать получения значений три раза, используйте цикл, с i, начинающимся с 1: " ("+ i +" [A-Z][a-z](?:[^\d\s]\s?)+)"

...