Как извлечь данные из веб-страницы с помощью регулярных выражений? - PullRequest
0 голосов
/ 01 мая 2009

Я пишу скрипт для сбора информации о некоторых сексуальных преступниках, я разработал скрипт, который собирает ссылки, как показано ниже:

http://criminaljustice.state.ny.us/cgi/internet/nsor/... (взломанный URL)

Теперь, когда мы перейдем по этой ссылке, я хочу получить информацию о всех полях на этой странице, таких как Offender Id :, фамилия и т. Д., В мои собственные переменные. Я очень слаб в регулярных выражениях, поэтому я здесь. Или есть другой способ?

Кто-нибудь может мне помочь в этом?

Ответы [ 3 ]

4 голосов
/ 01 мая 2009

phpQuery очень хорошо подходит для очистки экрана в PHP. Он позволяет вам получить доступ к DOM, используя те же методы, что и в jQuery.

0 голосов
/ 01 мая 2009

Я склонен согласиться с предыдущим постером о том, что RegEx не является подходящим инструментом для работы. Если вам нужно быстрое и грязное выражение, вот что:

Offender Id:.*
.* [0-9]*

Примечание: Вы должны включить новую строку в это выражение. Также обратите внимание, что это очень хрупко, так как оно сломается, если источник, который вы анализируете, сильно меняется.

...