Question

Я пытался читать вики-страницу, используя urllib и красивый суп, как показано ниже.

Я пытался в соответствии с этим.

import urllib.parse as parse, urllib.request as request
from bs4 import BeautifulSoup

name = "メインページ"
root = 'https://ja.wikipedia.org/wiki/'
url = root + parse.quote_plus(name)

response = request.urlopen(url)
html = response.read()
print (html)

soup = BeautifulSoup(html.decode('UTF-8'), features="lxml")
print (soup)

Код запускался без ошибок, но не мог прочитать японские символы.

Paras Mishra · Answer 1 · 02 октября 2019

Ваш подход кажется правильным и работает для меня. Попробуйте распечатать проанализированные данные, используя следующий код, и проверьте вывод.

soup = BeautifulSoup(html.decode('UTF-8'), features="lxml")
some_japanese = soup.find('div', {'id': 'mw-content-text'}).text.strip()
print(some_japanese)

В моем случае я получаю следующее (это часть вывода) -

ウィリアム・バトラー・65 ェイツ 65 18 18 18 18 日日 19 19 19 19 の 19 19 19 19 19 19 19 19 19 19 19 19

Если это не работает, попробуйте сохранить html-содержимое в файл и проверить страницу в браузере, если японский текст загружается правильно или нет,(Опять же, у меня работает нормально)

Невозможно прочитать вики-страницу от BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно прочитать вики-страницу от BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы