Я наткнулся на веб-сайт, который для защиты своего контента преобразует обычный текст в изображение, чтобы его нельзя было легко скопировать с помощью пауков.
Это код:
<img id="ctl00_ctl00_cphMain_cphMainCol_CompanyDetailsInfoData1_imgMail" src="https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d">
URL-адрес, содержащий деловую электронную почту, выглядит следующим образом:
https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d
Который при визуализации отображается как следующее изображение:
У кого-нибудь есть идеи, как можно было бы декодировать вышеуказанный URL в обычном тексте?
Спасибо!
Вы должны загрузить изображение (введите Request для URL изображения, байты изображения будут доступны на response.body) и использовать решение для оптического распознавания символов, например https://github.com/madmaze/pytesseract.
Request
response.body