Проблема здесь больше в HTML, чем в Python.
Если вы проверите исходный код страницы (вы можете сделать это, добавив print(driver.page_source)
, вы увидите, что он содержит метатег с атрибутом http-equiv
, установленным на «refre sh»:
<HTML><HEAD><title>NMPA</title></HEAD>
<body>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312"><meta http-equiv="refresh" content="0;URL=/WS04/CL2042/">
</HTML>
Этот тег направляет браузер на go по заданному URL (/WS04/CL2042/
, в плохо отформатированный атрибут, который браузер, к счастью, может понять). Итак, вместо очистки http://www.nmpa.gov.cn/, вы должны очистить http://www.nmpa.gov.cn/WS04/CL2042/.
Если вы измените свой код для доступа к этой другой ссылке, вы увидите, что тогда вы можете получить всю страницу. Вы можете либо жестко запрограммировать новую ссылку, либо безопасно объединить первую ссылку с «refre sh» место назначения с помощью такого метода, как urllib.parse.join()
: https://docs.python.org/3.7/library/urllib.parse.html#urllib .parse.urljoin .