Зачистка больших исходных изображений из Craigslist - PullRequest
0 голосов
/ 25 марта 2020

Мне нужно найти элегантное решение для очистки больших изображений (тех, которые открываются во всплывающем окне при щелчке на маленьком изображении с помощью курсора зума) из заданного раздела Craigslist, например, всех результатов поиска со всех страниц. для подержанных автомобилей для продажи в данном регионе + условие, например https://miami.craigslist.org/search/cta?condition=50&condition=60 (этот URL включает в себя выбранный идентификатор условия для сужения результатов поиска). Решение должно повторяться, хотя каждый из найденных результатов листинга на доступных страницах, открывать каждую из них, имитировать щелчок мышью на первом меньшем изображении (но не наименьшем уменьшенном изображении), это вызовет увеличенное изображение, и URL станет доступным в коде веб-страницы. Я не против просто получить URL-адреса этих больших изображений, чтобы упростить решение, и позже отслеживать их отдельно.

Попытка изменения кода из https://towardsdatascience.com/web-scraping-craigslist-a-complete-tutorial-c41cea4f4981 с использованием всех возможных расширений Chrome, перечисленных здесь https://medium.com/@rbrown7887.career / semalt-how-to-all-links-from- a-website-for-free-61e9d76122f6 , игра с Helium Scraper 3, Screaming Frog SEO, создание карты сайта с использованием webscraper.io и ряд других инструментов, включая запись щелчков мышью для получения списка ссылок или пакета изображений -downloaded - все напрасно.

Сложность заключается в том, как Craigslist обрабатывает URL-адреса этих изображений (обычно размером 1200x900). URL-адрес не будет отображаться на странице списка HTML, если не щелкнуть меньшее изображение, поэтому обычные скребки URL-адресов не видят ссылки на большие изображения. Буду признателен за любой совет относительно направления решения, на которое я должен смотреть дальше.

...