Я пытаюсь почистить таблицу, используя CSS Селекторы в Scrapy. Используемый мною метод заключается в том, что строка за строкой объединяется в один элемент scrapy.Field () в объекте элемента.
Тем не менее, очищенные данные содержат элемент "\ n \ t \ t" между всеми другими элементами в Таблица. Как мне удалить это в процессе очистки. Я могу выполнить постобработку данных, но я хотел бы понять, что происходит.
Мой метод синтаксического анализа:
def parse_product(self, response):
l = ItemLoader(item = KdramaItem(),
response = response,
)
l.add_value('url', response.meta['source_url'])
table_loader = l.nested_css('table')
table_loader.add_css('table', 'tr ::text')
yield l.load_item()
Часть вывода:
"url": ["http://www.koreandrama.org/angels-last-mission-love/"], "table": ["\n\t\t", "Date", "\n\t\t", "Ep", "\n\t\t", "TNmS", "\n\t\t", "TNmS", "\n\t\t", "AGB", "\n\t\t", "AGB", "\n\t", "\n\t\t", "\u00a0", "\n\t\t", "\u00a0", "\n\t\t", "Nationwide", "\n\t\t", "Seoul", "\n\t\t", "Nationwide", "\n\t\t", "Seoul", "\n\t", "\n\t\t",