Мне нужно почистить данные с сайта здесь .Это было защищено Инкапсула.Я уже сделал два подхода, а также использовал методы, которые были предоставлены пользователями Stack Overflow.
ПОДХОД 1 :
from incapsula import IncapSession
headers = {'Host': 'www.vignanam.org',
'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.10 (KHTML, like Gecko) Chrome/7.0.540.0 Safari/534.10',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'keep-alive',
'Cookie': 'visid_incap_1642409=B+YoelHCSKKN5z/Phs0zXCsF9VsAAAAAQUIPAAAAAACXaWvcNDXdMzcOky/SvffB; incap_ses'
'_715_1642409=kyFvSyJuuBVpNuh+aTHsCSsF9VsAAAAAKV6TIWTPSZmb+mOZWeuNHA==',
'Upgrade-Insecure-Requests': '1'}
session = IncapSession()
response = session.get('http://www.vignanam.org/index.htm#&panel1-1', headers=headers, bypass_crack=True)
print response.text
ПОДХОД 2:
from mechanize import Browser
from bs4 import BeautifulSoup
browser = Browser()
browser.open('https://www.incapsula.com/blog/how-incapsula-protects-against-data-leaks.html')
print browser.response()
soup = BeautifulSoup(browser.response().read(), features='html5lib')
print soup
Оба подхода дают одинаковые результаты.
РЕЗУЛЬТАТ / ВЫХОД
<html>
<head>
<META NAME="robots" CONTENT="noindex,nofollow">
<script src="/_Incapsula_Resource SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3"> </script>
<body>
</body>
</html>
Как сломать это и очистить данные оттуда?Есть ли другие языки программирования, чтобы преодолеть это?