Question

Я слежу за учебником и следующим фрагментом кода:

import urllib.request as url

def getTextWaPo(URL):
    page = url.urlopen(URL).read().decode('utf8')
    soup = BeautifulSoup(page, 'lxml')
    mytext = ' '.join(map(lambda p: p.text, soup.find_all('article')))
    return mytext.encode('ascii', errors='replace').replace("?", " ")

возвращает:

TypeError: a bytes-like object is required, not 'str'

Тем не менее, в документации я вижу, что кодирование - это строковый метод.Так зачем мне байтоподобный объект?Как убрать специальные символы в тексте, если это не так?

Я оглянулся, но ответы, которые я нашел, мне не помогли, или я по крайней мере не помогаюполучите это.

Andrew McDowell · Answer 1 · 09 октября 2018

Ваша проблема в замене, а не в кодировании.Вы конвертируете строку в формат байтов с помощью кодировки, а затем используете замену на строки, а не байты.

Я не уверен, какой вывод вы ожидаете без примера URL, чтобы проверить его, но попробуйтезамена оператора возврата на;

return mytext.encode('ascii', errors='replace').replace(b"?", b" ")

URL открыт, декодировать кодировать ошибку TypeError: требуется байтоподобный объект, не 'str'

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

URL открыт, декодировать кодировать ошибку TypeError: требуется байтоподобный объект, не 'str'

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов