Невозможно прочитать вики-страницу от BeautifulSoup - PullRequest
0 голосов
/ 02 октября 2019

Я пытался читать вики-страницу, используя urllib и красивый суп, как показано ниже.

Я пытался в соответствии с этим.

import urllib.parse as parse, urllib.request as request
from bs4 import BeautifulSoup

name = "メインページ"
root = 'https://ja.wikipedia.org/wiki/'
url = root + parse.quote_plus(name)

response = request.urlopen(url)
html = response.read()
print (html)

soup = BeautifulSoup(html.decode('UTF-8'), features="lxml")
print (soup)

Код запускался без ошибок, но не мог прочитать японские символы.

1 Ответ

0 голосов
/ 02 октября 2019

Ваш подход кажется правильным и работает для меня. Попробуйте распечатать проанализированные данные, используя следующий код, и проверьте вывод.

soup = BeautifulSoup(html.decode('UTF-8'), features="lxml")
some_japanese = soup.find('div', {'id': 'mw-content-text'}).text.strip()
print(some_japanese)

В моем случае я получаю следующее (это часть вывода) -

ウ ィ リ ア ム ・ バ ト ラ ー ・65 ェ イ ツ 65 18 18 18 18 日 日 19 19 19 19 の 19 19 19 19 19 19 19 19 19 19 19 19

Если это не работает, попробуйте сохранить html-содержимое в файл и проверить страницу в браузере, если японский текст загружается правильно или нет,(Опять же, у меня работает нормально)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...