Что делать после cURL?Или лучший способ разобрать строки с помощью PHP? - PullRequest
0 голосов
/ 16 января 2011

Я пытаюсь получить контент с веб-сайта, разобрать его, извлечь то, что я хочу, и поместить его в базу данных.

Я использую PHP.

Я создал скрипт, использующий cURL, который просматривает нужные мне страницы и захватывает контент HTML. Теперь, насколько я понимаю, мне нужен инструмент или библиотека, которые позволят мне взять эту строку, полную HTML страницы, и проанализировать ее.

Какие-нибудь советы о том, как (лучше) сделать это с помощью PHP?

1 Ответ

2 голосов
/ 16 января 2011

Если вам нужно следовать структуре HTML, используйте расширение DOM.Используйте метод loadHTML для загрузки данных, а затем вы можете использовать данные как DOMDocument или SimpleXML документ (используйте simplexml_import_dom для преобразования).

Если вам просто нужно извлечь что-то и не беспокоиться о понимании структуры документа, используйте регулярные выражения .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...