Соскрести изображения из поисковой системы - PullRequest
0 голосов
/ 25 марта 2020

Я хотел бы создать скребок для изображений, который очищает изображения от Bing, Google или любой другой поисковой системы. Есть много ответов и информации по этому вопросу, но похоже, что они больше не работают, так как эти компании пытаются заставить людей использовать их специфические c поисковые API. Теперь мой вопрос, если это все еще возможно очистить, например, Bing для изображений. Я начал играть с отправкой XMLHttpRequests на https://www.bing.com/images/search?q=banana. Я сделал это с библиотекой NodeJs и с эквивалентом браузера. Результаты сравнимы со следующим запросом

curl -A "Chrome/80.0.3987.149" "https://www.bing.com/images/search?q=banana"

Конечно, есть некоторые .jpg, но они кажутся как-то случайными и иногда даже не связаны с термином banana. Основной целью было бы получить оригинальный URL, где Бинг нашел изображения. Или получить то же представление, что и при просмотре элементов в инструментах разработчика.

Кто-нибудь знает о современном проекте с открытым исходным кодом или как мне начать этот путь?

Ответы [ 3 ]

0 голосов
/ 25 марта 2020

Вы можете попробовать использовать веб-драйвер Selenium. Это должно быть легко сделать свой собственный скребок для изображений, и он использует браузеры, такие как Firefox или Chrome. Google и Bing не будут блокировать доступ для Selenium, потому что это браузер.

https://www.selenium.dev/

0 голосов
/ 25 марта 2020

Я очень рекомендую puppeteer для случая, который вы упомянули. Я использовал его, чтобы автоматизировать практически все, что связано с браузером - заполнение моих встреч, получение билетов на поезд для сбора данных из одностраничных приложений и даже больше.

Это в основном безголовый chrome и если вы Я работал с Javascript до того, как вы почувствуете себя непринужденно. API-интерфейс действительно прост, а начать работу еще проще.

Просто npm i puppeteer, и вы можете его потребовать и выполнять всевозможные маги c: D

0 голосов
/ 25 марта 2020

в прошлый раз, когда я проверял, этот проект работает отлично! Я знаю, что написано в Python, но если вы только ищете изображения, это должно сделать работу! Надеюсь, это поможет:)

...