Я собрал скрипт, который собирает различные страницы товаров на странице поиска товаров и собирает заголовок / цену / ссылку на полное описание товара.Он был разработан с использованием цикла и добавления +i
на каждую страницу (www.exmple.com/search/laptops?page=(1+i)) до появления ошибки 200.
Название продукта содержитссылка на полное описание фактического продукта - теперь я хотел бы "посетить" эту ссылку и выполнить очистку основных данных из полного описания продукта.
У меня есть массив, созданный для ссылок, извлеченных изстраница поиска продукта - я думаю, что это был бы хороший стартовый блок.
Как бы я мог извлечь HTML-код из ссылок в массиве (т. е. зайти на страницу отдельного продукта и взятьфактические данные о продукте, а не только сводка со страницы поиска продуктов)?
Вот текущие результаты, которые я получаю в формате CSV:
Link Title Price
example.com/laptop/product1 laptop £400
example.com/laptop/product2 laptop £400
example.com/laptop/product3 laptop £400
example.com/laptop/product4 laptop £400
example.com/laptop/product5 laptop £400