Очистка каждой ссылки с карты сайта. xml - PullRequest
0 голосов
/ 05 марта 2020

Я новичок в Apify.

Я хотел бы очистить каждую ссылку в sitemap.xml

Более конкретно: у меня следующая ситуация: URL карты моего сайта: https://www.mywebsite.com/sitemap.xml

Мои ссылки с карты сайта выглядят следующим образом: https://www.mywebsite.com/product_id/product

Например: https://www.mywebsite.com/534372/acer_laptop

Я хотел бы спросить вас, есть ли решение для меня, чтобы извлечь из каждого связать следующие элементы: title, product_image_url, price

Я пробовал Web Scraper и Legacy Phantom JS Crawler, но я думаю, что чего-то не хватает, потому что я не могу получить элементы Мне нужно.

1 Ответ

0 голосов
/ 06 марта 2020

Для повышения производительности либо

  • убедитесь, что вы отключили эти параметры в дополнительных настройках:

    Загрузка файлов мультимедиа

    Загрузка CSS файлов

  • изучите возможность использования cheerio вместо скребка для веб / кукловодов, если вы еще не https://docs.apify.com/scraping/cheerio-scraper

  • запросить индивидуально оптимизированное решение для MP: https://apify.com/marketplace

...