Question

Я пытаюсь проанализировать данные HTML некоторых патентов для сбора информации с использованием Python 3.7 и bs4.

Моя проблема упрощена:

Учитывая этот URL

https://patents.google.com/patent/X/en?oq=Y

Где:

X = автоматически сгенерированная строка от Google

Y = Мой пользовательский ввод (номер патента)

и обычно: X == Y (номер патента)

Мне нужно получить значение X.

Более подробное описание моей проблемы:

Для 90% моегоВ запросах проблем нет, так как я могу просто разобрать, используя следующий код:

patent_number = "EP1000000B1"
paten_url = ("https://patents.google.com/patent/" + patent_number + "/en?oq=" + patent_number)
    r = requests.get(patent_url)
    response = r.content
    soup = BeautifulSoup(response, "html.parser")

Однако иногда структура запроса меняется, например: я пытаюсь найти номер патента WO198700753A1, используя приведенный выше код,но я получаю ошибку 404, потому что URL

https://patents.google.com/patent/WO198700753A1/en?oq=WO198700753A1

не существует. Эта часть, кажется, не имеет отношения к делу

en?oq=" + patent_number

, но первая часть:

Ручной поиск по патентам Google показывает, что Google автоматически перенаправляет мой запрос с WO198700753A1 на WO1987000753A1 (еще 0 добавлено).

Есть ли способ автоматически сгенерировать мой URL (деталь посередине), чтобы моя программа всегда находила результаты? Спасибо за вашу помощь;)

Автоматически генерировать поисковый запрос Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Автоматически генерировать поисковый запрос Google

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы