Разбор арабского текста в локальном html-файле - PullRequest
0 голосов
/ 23 июня 2018

Я пытаюсь извлечь некоторые данные из локального html-файла, используя python с BeautifulSoup, файл содержит некоторые текстовые данные на арабском языке, такие как заголовки. Моя проблема в том, что когда я пытаюсь распечатать этот арабский текст, я получаю странную строку. Пример кода с его выводом приведен вместе с разделом заголовка файла enter image description here, кто-нибудь может мне помочь? enter image description here

1 Ответ

0 голосов
/ 24 июня 2018

Откройте файл с utf-8 кодировкой

open ("body.htm", encoding = "utf-8")

или выберите файл дляиспользуйте utf-8

#!/usr/bin/env python
# -*- coding: utf-8 -*-
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...