Вы можете использовать анализатор HTML для анализа содержимого HTML;идет ли он из текстового файла, поля базы данных или URL.Синтаксический анализатор может позволить вам выборочно извлекать контент из HTML, в вашем случае, атрибут href
для тегов <a>
.
Я использовал PHP Простой HTML DOM Parser дляизвлечь ~ 1,5 гига данных с сайта.На этой странице есть пример из 5-10 строк, который может помочь вам начать работу.Вы также можете использовать PHP DOM функции для работы.В SO можно найти множество примеров извлечения конкретного контента (тегов, атрибутов, текстовых узлов) из блока HTML.