Я пытался получить доступ к сети, но у нее есть изображение CAPTCHA (OCR). Я использовал pytesseract и подушку, чтобы попытаться загрузить изображение, а затем прочитать его. У меня возникают проблемы в тот момент, когда я пытаюсь загрузить изображение, потому что html, который возвращает веб-страница, ничего не показывает. Следующий код - это то, что я пытался до сих пор, и возвращаемое значение «urllib.error.HTTPError: Ошибка HTTP 404: не найден»
import lxml
import pytesseract
import urllib
from PIL import Image
req = urllib.request.Request('https://www.simfac.mil.co/simfacv3/user/login')
f = urllib.request.urlopen(req)
page = f.read()
tree = lxml.html.fromstring(page)
imgurl = "https://www.simfac.mil.co/simfacv3"+tree.xpath('.//div[@id= "bootstrap-panel--
content"]/img[@src]')[0].attrib['src']+'/'
req = urllib.request.Request(imgurl, None)
f = urllib.request.urlopen(req)
img = f.read()
open('out.jpg', 'wb').write(img)
Это то, что я имею до сих пор, и imgurl совпадает с идентифицированным при использовании «inspect» на веб-странице. На следующем изображении показан код изображения CAPTCHA.
Я не знаю, что еще можно сделать, я был бы признателен за любой документ или ссылку, где Я могу найти больше информации.