Я провел целый день в поисках способа отображения арабских букв с scrapy
, и у меня ничего не получалось!Я очищаю арабский веб-сайт, но не получаю правильный формат арабского языка.
Вот что я на самом деле получаю, когда сохраняю результаты в CSV-файле:
"بطل ليÙربول القديم" يرد على أنصار "الريدز"
вот моя функция:
def parse_details(self, response):
vars = ArticlesItem()
vars["title"] = response.css("h1.sna_content_heading::text").extract_first().strip()
vars["article_summary"] = response.css("span.article-summary").extract_first().strip()
vars["article_content"] = [i.strip() for i in response.css("div.article-body p::text").extract()]
vars["tags"] = [i.strip() for i in response.css("div.article-tags h2.tags::text").extract()]
yield vars
я пытался добавить encode("utf-8")
, но я все еще не получаю правильный формат
vars["title"] = ...extract_first().strip().encode("utf-8")
я получаю что-то вроде этого:
b'\xd8\xa8\xd8\xb1\xd9\x82\xd9\x85 "\xd9\x85\xd8\xb0\xd9\x87'
b'\xd9\x84".. \xd8\xa8\xd9\x86\xd8\xb2\xd9\x8a\xd9\x85\xd8\xa9 \xd9'
b'\x8a\xd8\xaa\xd9\x81\xd9\x88\xd9\x82 \xd8\xb9\xd9\x84\xd9\x89'
b' \xd9\x85\xd9\x8a\xd8\xb3\xd9\x8a \xd9\x88\xd8\xb1\xd9\x88'
b'\xd9\x86\xd8\xa7\xd9\x84\xd8\xaf\xd9\x88 \xd9\x88\xd8\xb5\xd9'
b'\x84\xd8\xa7\xd8\xad'