Как искать в html сайта через python-3.6? - PullRequest
0 голосов
/ 11 февраля 2019

У меня много подарков, и мне нужно создать проверку, которая проверит, работает ли подарок или нет -> он будет искать в html несколько слов.Я ищу "подарочный код недействителен"

Когда я пытаюсь прочитать html через urllib или запросы, он загрузит только небольшую часть html.Я новичок, так что я, возможно, делаю что-то не так.

мой код:

import requests
link = "https://discord.gift/o2uzOR7YE3CoBpGq"
r = requests.get(link)
print(r.text)

вывод:

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8" />
    <meta content="width=device-width, initial-scale=1.0, maximum-scale=1, user-scalable=no" name="viewport" />

    <!-- section:seometa -->
    <meta property="og:type" content="website" />
    <meta property="og:site_name" content="Discord" />
    <meta property="og:title" content="Discord - Free voice and text chat for gamers" />
    <meta
      property="og:description"
      content="Step up your game with a modern voice & text chat app. Crystal clear voice, multiple server and channel support, mobile apps, and more. Get your free server now!"
    /><meta property="og:image" content="https://discordapp.com/assets/ee7c382d9257652a88c8f7b7f22a994d.png" />    <meta name="twitter:card" content="summary_large_image" />
    <meta name="twitter:site" content="@discordapp" />
    <meta name="twitter:creator" content="@discordapp" />
    <!-- endsection -->

    <link
      rel="chrome-webstore-item"
      href="https://chrome.google.com/webstore/detail/lcbhdgefieegnkbopmgklhlpjjdgmbog"
    />
<link rel="stylesheet" href="/assets/0.830216ebaf585f92a484.css" integrity="sha256-qzZED1N67NuVMyWOdvhIGhtLtKnOXSg+F3HcanmdW4Q= sha512-D0iS5hrftKNpXWnvjpfujnvlabUq6K5gsHbsdvctRMtQXzdf2jvZ/JwaRHAPSb9Z5Xb2o8SBeXeMTajvtrkeRw=="><link rel="icon" href="/assets/07dca80a102d4149e9736d4b162cff6f.ico" />    <!-- section:title -->
    <title>Discord</title>
    <!-- endsection -->
  </head>

  <body>
    <div id="app-mount"></div><script nonce="NjksMjM0LDU4LDI4LDkxLDUxLDYzLDE3Mg==">window.__OVERLAY__ = /overlay/.test(location.pathname)</script><script nonce="NjksMjM0LDU4LDI4LDkxLDUxLDYzLDE3Mg==">window.GLOBAL_ENV = {
      API_ENDPOINT: '//discordapp.com/api',
      WEBAPP_ENDPOINT: '//discordapp.com',
      CDN_HOST: 'cdn.discordapp.com',
      ASSET_ENDPOINT: 'https://discordapp.com',
      WIDGET_ENDPOINT: '//discordapp.com/widget',
      INVITE_HOST: 'discord.gg',
      GIFT_CODE_HOST: 'discord.gift',
      MARKETING_ENDPOINT: '//discordapp.com',
      NETWORKING_ENDPOINT: '//router.discordapp.net',
      RELEASE_CHANNEL: 'stable',
      BRAINTREE_KEY: 'production_5st77rrc_49pp2rp4phym7387',
      STRIPE_KEY: 'pk_live_CUQtlpQUF0vufWpnpUmQvcdi',
    };</script><script nonce="NjksMjM0LDU4LDI4LDkxLDUxLDYzLDE3Mg==">!function(){if(null!=window.WebSocket){var n=function(n){try{var e=localStorage.getItem(n);return null==e?null:JSON.parse(e)}catch(n){return null}},e=n("token"),o=n("gatewayURL");if(e&&o){var r=null!=window.DiscordNative||null!=window.require?"etf":"json",t=o+"/?encoding="+r+"&v=6";void 0!==window.Uint8Array&&(t+="&compress=zlib-stream"),console.log("[FAST CONNECT] "+t+", encoding: "+r+", version: 6");var a=new WebSocket(t);a.binaryType="arraybuffer";var i=Date.now(),s={open:!1,gateway:t,messages:[]};a.onopen=function(){console.log("[FAST CONNECT] connected in "+(Date.now()-i)+"ms"),s.open=!0},a.onclose=a.onerror=function(){window._ws=null},a.onmessage=function(n){s.messages.push(n)},window._ws={ws:a,state:s}}}}();</script><script src="/assets/294f56f239ff22f62fc1.js" integrity="sha256-wTRQJKoqMfG3makS9dDuuegpcHSdaGmfoEBQUPXMdDM= sha512-OVrPyjx2akoJ6QS8OZ+9blz/ADtDHruxw4gwLsjfDVUgolO1ZtcgWbOo0Zj9JBNyzAjKOSCfoFoN9lnkF0EYCw=="></script><script src="/assets/eaa48b00154d2e7ac545.js" integrity="sha256-FRTrm1gL5gkDUoKwVuL9hrrmllKXQsZg7r5zy0Xo4bo= sha512-QZ4c5JQKE5rLJf1uGLQaHHL4NpkAigt4TtluicuMZDYDE5fiL7wkaD2CMBxr0xhOO5aNfSFCxcaqBkU/xOEggQ=="></script><script src="/assets/c73d229b094bb39f0686.js" integrity="sha256-thaBLLvK6Up+B8O7zIOF9Uv8IF+gwGuOW+WUe26l/vk= sha512-5ez2fLO3oMI1UPZDif1Szfjwz04ftTNfhWWSqM81hNhuVN7kckAAZR5a1SuQG8rgsqXwN1is53uAL5M2rz/FOg=="></script>  </body>
</html>

вы можете видеть на первом рисунке, естьтекст "подарочный код недействителен" в html этого сайта, но эта строка отсутствует в выводе Python.

https://ctrlv.cz/kKd3

Ответы [ 2 ]

0 голосов
/ 11 февраля 2019

Сайт отправляет ajax-запрос в фоновом режиме и проверяет подарочный код на его действительность.Он отправляет ответ json, чтобы указать, действителен ли подарочный код или нет.Затем данные заполняются JavaScript.

Самый простой способ получить желаемый результат - эмулировать запрос ajax и получить сообщение.Вы можете сделать это без использования selenium, request-html или любых других механизмов рендеринга javascript и при этом получить желаемый результат - проверить, работает ли подарок.

import requests
gift_code='o2uzOR7YE3CoBpGq' #gift code here
link = f"https://discordapp.com/api/v6/entitlements/gift-codes/{gift_code}?with_application=true&with_subscription_plan=true"
r = requests.get(link)
print(r.json()['message'])

Вывод

Unknown Gift Code
0 голосов
/ 11 февраля 2019

То, что вы ищете «недействительный подарочный код», возможно, отрисовывается js.запросы не отображают вывод js, поэтому вы не можете его найти.

Если вы используете Python 3.6, попробуйте request-html для рендеринга веб-страницы с выводом js.

Обновленный пример:

from requests_html import HTMLSession

link = 'https://discord.gift/o2uzOR7YE3CoBpGq'
targetString = "Gift Code Invalid"
session = HTMLSession()
r = session.get(link)
print("Before render is call: ", targetString in r.html.text)
# sleep has to be implemented after initial the render to get the proper response
r.html.render(wait=2, sleep=1)
print("After render is call: ", targetString in r.html.text)

Вывод:

Before render is call:  False
After render is call:  True
Process finished with exit code 0

Вы можете посетить документацию библиотеки для другого метода, такого как поиск по элементу, или даже преобразовать ответ в объект lxml после рендеринга: https://html.python -requests.org /

...