Сканирование всех комментариев на сайте с помощью scrapy - PullRequest
0 голосов
/ 24 мая 2018

Я пытаюсь отсканировать все комментарии на сайте покупок, используя Scrapy.Я нашел этот код:

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class deneme(CrawlSpider):
name = 'deneme'
allowed_domains = ['hepsiburada.com']
start_urls = ['https://www.hepsiburada.com/']

rules = (
    Rule(LinkExtractor(), callback='parse_item', follow=True),
)

def parse_item(self, response):
    filename = response.url.split("/")[-2] + '.html'
    with open(filename, 'wb') as f:
        f.write(response.body)

Этот код сканирует весь сайт.Но я хотел бы сканировать только комментарии на веб-сайте и записывать их в базу данных MongoDB.Я не очень хорош в Python.Как я могу это сделать?Спасибо!

1 Ответ

0 голосов
/ 24 мая 2018

Вот код:

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class deneme(CrawlSpider):
    name = 'yorum'
    allowed_domains = ['hepsiburada.com']
    start_urls = ['https://www.hepsiburada.com/']
    rules = (
        Rule(LinkExtractor(), callback='parse_item', follow=True),
    )


    def parse_item(self, response):




        print(response.xpath('//p[@class="review-text"]/text()').extract())

scrap crawl yorum> output.txt

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...