scrapy_spla sh: визуализированный html по-прежнему содержит js скрипт и отличается от того, что я вижу в своем браузере - PullRequest
0 голосов
/ 07 апреля 2020

Я пытаюсь сканировать динамическую c веб-страницу по spla sh, я получил html, но есть только несколько <scrip> в <body>, нет реальные данные. Содержимое html совпадает с тем, что я вижу в chrome источнике, но отличается от содержимого того, что я вижу в chrome средстве разработки:

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>web title</title>
<!--  -->
<meta name="renderer" content="webkit"><!-- 使360浏览器 默认启用极速内核 -->
<link rel="icon" href="//concat.lietou-static.com/fe-nlpt-pc/v5/static/favicon.b16a8905.ico" type="image/x-icon" />
<link rel="dns-prefetch" href="//concat.lietou-static.com" />
<!-- AppAdhoc start -->
<script src='https://sdk.appadhoc.com/ab.plus.js'></script>
<script>
  adhoc('init', {
    appKey: 'ADHOC_8a5bdd68-c964-4a5d-8c23-297b7ba0ea58', 
    clientIdDomain:'liepin.com'
  })
</script>
<!-- AppAdhoc end -->

<!-- 浏览器升级提醒 -->
<!--[if IE]>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/ie-prompt.ec60e546.js"></script>
<![endif]-->
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/femonitor.min.ee371522.js"></script>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/loader.f5cc4300.js"></script>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/jquery-1.7.1.min.c7e0488b.js"></script>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/polyfill.min.7d2ef4bb.js"></script>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/common/lib.b7b8f1c7.js"></script>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/js/common/vendors.41fc17c1.js"></script>
<link rel="stylesheet" href="//concat.lietou-static.com/fe-nlpt-pc/v5/css/common/common.6170d04f.css">
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/js/common/common.8e190bf0.js"></script>
<link rel="stylesheet" href="//concat.lietou-static.com/fe-nlpt-pc/v5/css/pages/cvsearch.showcondition.39accbdb.css">
</head>
<body>
<div class="search-resume" id="root"></div>
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/js/pages/cvsearch.showcondition.d00edfdd.js"></script>
<script>
window.tlg = {
  exposure: [
    /* 搜索结果列表页简历内容弹层 */
    {
      type: 'dynamic',
      xpath: 'div.more-resumedata/h3.exposure',
      container:{
        xpath: 'div.wrap.search-resume/div.resume-list-box'
      },
      subTreeFinder: true
    }
  ],
  dialogAlias: 'ant-modal-root'
};
</script>
<!--  -->
<script src="//concat.lietou-static.com/fe-nlpt-pc/v5/static/js/tlog.min.e7229652.js"></script>
<script>

(function () {
  var dlog_js = document.createElement("script");
  dlog_js.src = "//static3.lietou-static.com/dlog.js?v=3&q=" + parseInt(''+new Date()/3E5);
  var s = document.getElementsByTagName("script")[0];
  s.parentNode.insertBefore(dlog_js, s);
})();

</script>



<script type='text/javascript'>
    function textFactory(str) {
      if(str && !/^(https?:\/\/.+|\/{1,2}\w+.?)/ig.test(str) ){
        var newStr = str.substring(0,8);
        var newlen = newStr.length;
        if(newlen>=3 && /.+(%40|@).+/g.test(newStr)){
          return '疑似邮箱';
        }
        if( newlen>=6 && /[0-9]{6,}/g.test(newStr) ){
          return '疑似电话号码';
        }
        return newStr;
      }else{
        return str;
      }
    };
    var _vds = _vds || [];
    window._vds = _vds;
    (function(){
        _vds.push(['setAccountId', '2abfd0d7eaa44a729d761fb028300b6c']);
        _vds.push(['trackBot', false]);
        _vds.push(['ctaOnly', true]); 
        _vds.push(['setTextEncryptFunc', function (text) {
            var encrypted_text = textFactory(text);
            //console.log("origin: "+text);
            //console.log("gio: "+encrypted_text);
            return encrypted_text; 
        }]);


        _vds.push(['setCS1','user_id','********']);

        _vds.push(['setCS2','e_role','普通用户']);

        _vds.push(['setCS5','e_auth_status','已授权']);

        _vds.push(['setCS6','customer_group_id','****']);

        _vds.push(['setCS4','customer_group_suffix','*']);

        _vds.push(['setCS3','ecomp_service_status','合约中']);

        _vds.push(['setCS7','ecomp_industrys','**']);

        _vds.push(['setCS8','ecomp_scale','1000']);

        _vds.push(['setCS9','ecomp_kind','**']);

        _vds.push(['setCS10','ecomp_dq_city','**']);

    })();
</script>

<script src="//concat.lietou-static.com/fe-lpt-pc/v5/static/js/growingio-vds-lp.2c994f35.js"></script>


</body>
</html>

Я бы хотел Спросите , как я могу получить содержимое, аналогичное тому, что я вижу в моем браузере?

...