Конвертировать в utf16 - PullRequest
       63

Конвертировать в utf16

0 голосов
/ 09 июля 2020

Я просматриваю несколько веб-сайтов и извлекаю названия продуктов. В некоторых именах есть такие ошибки:

Malecon 12 Jahre 0,05 ltr.<br>Reserva Superior
Bols Watermelon Lik\u00f6r 0,7l
Hayman\u00b4s Sloe Gin
Ron Zacapa Edici\u00f3n Negra
Havana Club A\u00f1ejo Especial
Caol Ila 13 Jahre (G&amp;M Discovery)

Как это исправить? Я использую xpath и re.search для получения имен.

В каждом файле Python это первый код: # -*- coding: utf-8 -*-

Изменить:

Это это исходный код, как я получаю информацию.

if '"articleName":' in details:
                            closer_to_product = details.split('"articleName":', 1)[1]
                            closer_to_product_2 = closer_to_product.split('"imageTitle', 1)[0]
                            if debug_product == 1:
                                print('product before try:' + repr(closer_to_product_2))
                            try:
                                found_product = re.search(f'{'"'}(.*?)'f'{'",'}'closer_to_product_2).group(1)
                            except AttributeError:
                                found_product = ''
                            if debug_product == 1:
                                print('cleared product: ', '>>>' + repr(found_product) + '<<<')
                            if not found_product:
                                print(product_detail_page, found_product)
                                items['products'] = 'default'
                            else:
                                items['products'] = found_product

Подробности

product_details = information.xpath('/*').extract()
product_details = [details.strip() for details in product_details]
...