Я пытаюсь проанализировать данные HTML некоторых патентов для сбора информации с использованием Python 3.7 и bs4.
Моя проблема упрощена:
Учитывая этот URL
https://patents.google.com/patent/X/en?oq=Y
Где:
X = автоматически сгенерированная строка от Google
Y = Мой пользовательский ввод (номер патента)
и обычно: X == Y (номер патента)
Мне нужно получить значение X.
Более подробное описание моей проблемы:
Для 90% моегоВ запросах проблем нет, так как я могу просто разобрать, используя следующий код:
patent_number = "EP1000000B1"
paten_url = ("https://patents.google.com/patent/" + patent_number + "/en?oq=" + patent_number)
r = requests.get(patent_url)
response = r.content
soup = BeautifulSoup(response, "html.parser")
Однако иногда структура запроса меняется, например: я пытаюсь найти номер патента WO198700753A1, используя приведенный выше код,но я получаю ошибку 404, потому что URL
https://patents.google.com/patent/WO198700753A1/en?oq=WO198700753A1
не существует. Эта часть, кажется, не имеет отношения к делу
en?oq=" + patent_number
, но первая часть:
Ручной поиск по патентам Google показывает, что Google автоматически перенаправляет мой запрос с WO198700753A1 на WO1987000753A1 (еще 0 добавлено).
Есть ли способ автоматически сгенерировать мой URL (деталь посередине), чтобы моя программа всегда находила результаты? Спасибо за вашу помощь;)