Суповые ссылки загадочно укорочены? - PullRequest
0 голосов
/ 24 августа 2018

Я подумала и впоследствии запросила кучу ссылок у Google, и я впервые столкнулась с действительно странным поведением в первый раз.

На исходной странице Google есть ссылки со следующей структурой: <cite class="iUh30">www.kraso.sk/wp- content/uploads/sutaze/2015_2016/20151001_ont/</cite>

Приведенный выше URL-адрес вызывает у меня проблемы.Я запускаю этот простой фрагмент:

r = request_url(url=search, on_failure=None) # just applies .get() & handles errors
html = BeautifulSoup(r.text, "html.parser")
all_links = html.find_all("cite")


for link in all_links:
    logger.info(f"Examining link {link.text} for {db_event_name} {search_year}")
    logger.info(f"Is 2016 in {link.text}? {'2016' in link.text}")

и получаю следующий журнал, а также ошибку 404 при попытке запросить ссылку (которая прекрасно работает при посещении через браузер):

2018-08-24 15:38:23 - __main__ - INFO  - Examining link www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/ for Nepela 2015
2018-08-24 15:38:23 - __main__ - INFO  - Is 2016 in www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/? False

Тест (это 2016 год в ссылке) должен вернуться положительным, поскольку полная ссылка содержит его.Похоже, это означает, что раздел «2015 ... /» в журналах на самом деле не является аббревиатурой для форматирования, но фактически «_2016» был заменен на «...» - подтвердил это, сравнив печать сжурнал, вход в файл вместо консоли и т. д.

Кто-нибудь видел это раньше или знает, как справиться?Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...