я хочу напечатать правильную таблицу из данных, утилизированных с помощью скрапа - PullRequest
0 голосов
/ 21 апреля 2020

, поэтому я записал весь код в таблицу отходов из [http://www.rarityguide.com/cbgames_view.php?FirstRecord=21] [1] , но я получаю вывод, как

# the output that i get

{'EXG': (['17.00',

 'G': ['8.00',
 'company': (['Milton Bradley',
              'Milton Bradley',
              'Milton Bradley',
              'Standard Toykraft',
              'Game Gems',
              'Milton Bradley',
              'Parker Brothers',
              'Parker Brothers',
              'King Features',
              'Parker Brothers',
              'Parker Brothers'],),
 'mnm': (['26.00',
 'rarity': ([],),
 'title': (['Beat the Clock',
            'Beat the Clock',
            'Beatles - Flip Your Wig',
            'Ben Casey M.D.',
            'Bermuda Triangle',
            'Betsy Ross and the Flag',
            'Beverly Hillbillies',
            'Beware the Spider',
            'Bewitched - Stymie Card Game',
            'Bionic Woman',
            'Blade Runner',
            'Blondie - Playing Card Game',
            'Blondie - Sunday Funnies',
            'Blondie - The Hurry Scurry Game',
            "Blondie and Dagwood's Race for the Office",
            'Blondie Goes to Leisureland',
            'Boom or Bust',
            'Boom or Bust'],),
 'year': (['1969',

, может кто-нибудь помочь мне достичь результата, как

# the output that i want!
{"EXG": ["17.00"],
  "MNM": ["26.00"],
  "year": ["1969"],
  "company": ["Milton Bradley"],
  "Title": ["Beat the Clock"] }

{"EXG": ["10.00"],
  "MNM": ["19.00"],
  "year": ["1954"],
  "company": ["Lowell"],
  "Title": ["Beat the Clock"] }
and then so on for all values.

В основном я хочу иметь один словарь, содержащий все пары значений ключа вместо одного целого словаря для каждого ключа. также вот код моего паука

import scrapy
from ..items import RarityItem

class RarityScrapper(scrapy.Spider):
    name = "rarity"
    start_urls = [

    def parse(self, response):
        table = response.css(

        items = RarityItem()

        for contents in table:
            title = contents.css("td:nth-child(2)::text").extract()
            company = contents.css("td:nth-child(3)::text").extract()
            year = contents.css("td:nth-child(4)::text").extract()
            rarity = contents.css("td:nth-child(5)::text").extract()
            mnm = contents.css("td:nth-child(6)::text").extract()
            EXG = contents.css("td:nth-child(7)::text").extract()
            G = contents.css("td:nth-child(8)::text").extract()

            items["title"] = title,
            items["company"] = company,
            items["year"] = year,
            items["rarity"] = rarity,
            items["mnm"] = mnm,
            items["EXG"] = EXG,
            items["G"] = G

            yield items

Ответы [ 2 ]

1 голос
/ 22 апреля 2020

Если все списки имеют одинаковую длину, после этой строки

G = contents.css("td:nth-child(8)::text").extract():

Добавить этот фрагмент кода:

arr = []
for _ in range(len(title)):
        'EXP': title[_], 'company': company[_], 'year': year[_], 'rarity': rarity[_],
        'MNM': mnm[_], 'EXG': EXG[_], 'G': G[_]})

Затем введите:

for _ in arr:

чтобы увидеть выходной массив

0 голосов
/ 22 апреля 2020

Вам нужно перебирать каждую строку в таблице и обрабатывать данные строки отдельно. Поскольку все строки имеют одинаковую длину, вы можете использовать распаковку списка для записи данных в dict item:

def parse(self, response):
    table = response.css(
        "form table")

    for row in table.css("tr"):
        i = {}
        _, i["title"], i["company"], i["year"], _, i["mnm"], i["EXG"], i["G"] = row.css("td::text").extract()
        i["rarity"] = row.css("td img::alt").extract_first("")
        yield i