Как искать точные китайские иероглифы на сайте? - PullRequest
0 голосов
/ 27 мая 2020

Я пытаюсь найти на сайте определенные китайские иероглифы, но всегда оказывается, что они не найдены. Вот мой код, который у меня есть. Сайт на китайском языке

from random import randint
for _ in range(1):
    value = randint(100000000, 999999999)
    # print(value)

#Gets link + puts together
shop = 'https://shop'
taobao = '.taobao.com'
tempLink = 'https://shop357612815.taobao.com/'
link = shop + str(value) + taobao

#request stuff
from urllib.request import urlopen
import urllib.request

#search word list
words = ['2017', '2018', '2019', 'tide brand', 'taobao', '.00', 'palace', 'ader error',
         'vlone', 'fog', 'fear of god', 'assc', 'anti', '4.', '5.', '首页']

#searcher
site = urllib.request.urlopen(link).read().decode('utf-8', errors = 'ignore')
for word in words:
    if word in site:
       print(word, link)

Если я удалю часть errors = 'ignore', она перестанет работать и выдает код ошибки:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 267: invalid start byte
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...