Извлечение ВСЕХ значений href - PullRequest
0 голосов
/ 08 августа 2011

Я хочу извлечь все значения href для сайта на основе PHP (Joomla) и сохранить его в CSV или что-то подобное.У меня есть доступ к таблице содержимого MySQL, так что я могу при необходимости обрабатывать необработанные данные.

I может необходимо отфильтровать то, что я извлекаю позже, но сейчас я бы приветствоваллюбые идеи для начала.

Заранее спасибо!

1 Ответ

1 голос
/ 08 августа 2011

Вы можете использовать анализатор HTML для анализа содержимого HTML;идет ли он из текстового файла, поля базы данных или URL.Синтаксический анализатор может позволить вам выборочно извлекать контент из HTML, в вашем случае, атрибут href для тегов <a>.

Я использовал PHP Простой HTML DOM Parser дляизвлечь ~ 1,5 гига данных с сайта.На этой странице есть пример из 5-10 строк, который может помочь вам начать работу.Вы также можете использовать PHP DOM функции для работы.В SO можно найти множество примеров извлечения конкретного контента (тегов, атрибутов, текстовых узлов) из блока HTML.

...