Как отфильтровать escape-последовательности при очистке таблиц с помощью селекторов css? - PullRequest
0 голосов
/ 24 января 2020

Я пытаюсь почистить таблицу, используя CSS Селекторы в Scrapy. Используемый мною метод заключается в том, что строка за строкой объединяется в один элемент scrapy.Field () в объекте элемента.

Тем не менее, очищенные данные содержат элемент "\ n \ t \ t" между всеми другими элементами в Таблица. Как мне удалить это в процессе очистки. Я могу выполнить постобработку данных, но я хотел бы понять, что происходит.

Мой метод синтаксического анализа:

 def parse_product(self, response):

    l = ItemLoader(item = KdramaItem(),
                   response = response,
                   )
    l.add_value('url', response.meta['source_url'])
    table_loader = l.nested_css('table')
    table_loader.add_css('table', 'tr ::text')

    yield l.load_item()

Часть вывода:

"url": ["http://www.koreandrama.org/angels-last-mission-love/"], "table": ["\n\t\t", "Date", "\n\t\t", "Ep", "\n\t\t", "TNmS", "\n\t\t", "TNmS", "\n\t\t", "AGB", "\n\t\t", "AGB", "\n\t", "\n\t\t", "\u00a0", "\n\t\t", "\u00a0", "\n\t\t", "Nationwide", "\n\t\t", "Seoul", "\n\t\t", "Nationwide", "\n\t\t", "Seoul", "\n\t", "\n\t\t",
...