Ошибка 404 при попытке загрузить изображение CAPTCHA с помощью подушки - PullRequest
0 голосов
/ 24 февраля 2020

Я пытался получить доступ к сети, но у нее есть изображение CAPTCHA (OCR). Я использовал pytesseract и подушку, чтобы попытаться загрузить изображение, а затем прочитать его. У меня возникают проблемы в тот момент, когда я пытаюсь загрузить изображение, потому что html, который возвращает веб-страница, ничего не показывает. Следующий код - это то, что я пытался до сих пор, и возвращаемое значение «urllib.error.HTTPError: Ошибка HTTP 404: не найден»

import lxml
import pytesseract
import urllib
from PIL import Image

req = urllib.request.Request('https://www.simfac.mil.co/simfacv3/user/login')
f = urllib.request.urlopen(req)
page = f.read()
tree = lxml.html.fromstring(page)
imgurl = "https://www.simfac.mil.co/simfacv3"+tree.xpath('.//div[@id= "bootstrap-panel-- 
          content"]/img[@src]')[0].attrib['src']+'/'
req = urllib.request.Request(imgurl, None)
f = urllib.request.urlopen(req)
img = f.read()
open('out.jpg', 'wb').write(img)

Это то, что я имею до сих пор, и imgurl совпадает с идентифицированным при использовании «inspect» на веб-странице. На следующем изображении показан код изображения CAPTCHA.

enter image description here

Я не знаю, что еще можно сделать, я был бы признателен за любой документ или ссылку, где Я могу найти больше информации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...