Как избежать обнаружения при доступе к сайту через браузер TOR с селеном? - PullRequest
0 голосов
/ 27 сентября 2019

Я уже некоторое время пытаюсь очистить веб-сайты, и когда вы применяете грубую силу для получения всей информации по 500 000+ URL-адресов с одного веб-сайта, вы можете заблокироваться.Поэтому сейчас я пытаюсь очистить свои данные через браузер TOR с помощью селенового веб-драйвера.Все идет нормально.Получил и запустил:

from selenium import webdriver
from selenium.webdriver.firefox.firefox_profile import FirefoxProfile
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
import os

torexe = os.popen(r'C:/location_to/Tor Browser/Browser/TorBrowser/Tor/tor.exe')
profile = FirefoxProfile(r"C:/location_to/Tor Browser/Browser/TorBrowser/Data/Browser/Caches/profile.default")
profile.set_preference('network.proxy.type', 1)
profile.set_preference('network.proxy.socks', '127.0.0.1')
profile.set_preference('network.proxy.socks_port', 9050)
profile.set_preference("network.proxy.socks_remote_dns", False)
profile.update_preferences()
driver = webdriver.Firefox(firefox_profile= profile, executable_path=r'C:/Location_to/geckodriver-v0.25.0-win64/geckodriver.exe')
driver.get("http://check.torproject.org")

Результат: Поздравляем.Этот браузер настроен на использование Tor.Ваш IP-адрес: 94.230.208.147

Отлично.Однако, когда я пытаюсь получить доступ к определенным веб-сайтам, меня обнаруживают:

driver.get("https://gearbest.com")
raw_html = driver.page_source
clean_html = soup(raw_html, 'html.parser')

Доступ запрещен. У вас нет разрешения на доступ "http://gearbest.com/" на этом сервере. Ссылка # 18.cff31502.1569612654.932f460

Большинство веб-сайтов не обнаруживают меня, это всего лишь горстка. Я пробовал кучу «решений», но публикация их, скорее всего, была бы более запутанной, чем помощь. Это может быть обнаружение без головы, но опять же,Я не уверен. Кто может помочь мне здесь?

Заранее спасибо.

1 Ответ

0 голосов
/ 01 октября 2019

Я переключился на autoVPN (в linux в vm), который бесплатный, работает и не блокируется целевым сайтом!

...