Помощь новичкам - утилизация сайтов электронной коммерции - PullRequest
0 голосов
/ 27 августа 2018

Я новичок в области скрапа и ползания. Я пытаюсь собрать данные с сайтов электронной коммерции в Индии и не могу этого сделать.

Я пытаюсь извлечь текст из следующей гиперссылки:

<a ng-href="/pd/40011505/figaro-extra-virgin-olive-oil-1-ltr/?nc=cl-prod-list&amp;t_pg=&amp;t_p=&amp;t_s=cl-prod-list&amp;t_pos=1&amp;t_ch=desktop" ng-click="vm.pushToGoogleAnalytics('_trackEvent','item-clicked','custom-page',sectionModel.display_pos+' | '+sectionModel.pageinternalName+' | LNPD | '+sectionModel.internalName+' | '+vm.selectedProduct.sku+' | '+vm.selectedProduct.p_desc +' | '+ vm.itemposition,1)" class="ng-binding" style="text-align: left;" data-original-title="" data-trigger="focus" uib-tooltip="Extra Virgin Olive Oil" data-sectioninteractionplower="{&quot;EventName&quot;:&quot;ItemClicked&quot;, &quot;CustomPageGroup&quot; : &quot;&quot;, &quot;CustomPage&quot;:&quot;&quot;, &quot;ScreenInPageContext&quot; : &quot;cl-prod-list&quot;, &quot;ScreenInPagePosition&quot;:&quot;1&quot;,
            &quot;SectionItemName&quot;:&quot;&quot;, &quot;SectionItemPosition&quot;:&quot;1&quot;}" ng-bind="vm.selectedProduct.p_desc" href="/pd/40011505/figaro-extra-virgin-olive-oil-1-ltr/?nc=cl-prod-list&amp;t_pg=&amp;t_p=&amp;t_s=cl-prod-list&amp;t_pos=1&amp;t_ch=desktop" css="1">Extra Virgin Olive Oil</a>

Xpath / Css Селекторы не работают для меня.

Ценю любую помощь.

1 Ответ

0 голосов
/ 27 августа 2018

Чтобы получить текст из тега, я бы использовал следующий селектор CSS

resp.css('a::text').extract()

Ответ:

['Extra Virgin Olive Oil']
...