Захват контента через php curl - PullRequest
0 голосов
/ 02 ноября 2011

Я пытаюсь разработать граббер контента, используя php curl, мне нужно извлечь контент из URL, например: http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/ и сохранить его в CSV-файле.например: если я ввожу URL для извлечения данных, он должен хранить заголовок, содержимое, теги в CSV и последующие для следующего URL.Это какой-то их фрагмент?

следующий код генерирует весь контент, мне нужно специально позвонить в заголовок, содержание поста

<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>

1 Ответ

1 голос
/ 02 ноября 2011

Есть так много способов. Де-факто вы хотите разобрать HTML-файл. strip_tags - один из способов, но грязный.

Я рекомендую вам использовать для этого класс DOMDocument (здесь, на so.com, должно быть много других способов). Остальное - стандартный php, запись и чтение из CSV хорошо документированы на php.net

Пример получения ссылок на сайте (не мной): http://php.net/manual/en/class.domdocument.php#95894

...