Вот суть моего кода.Он пытается получить текст со старого сайта.Это не мое, поэтому я не могу изменить источник.
from bs4 import BeautifulSoup
import requests
response = requests.get("https://mattgemmell.com/network-link-conditioner-in-lion/")
data = response.text
soup = BeautifulSoup(data, 'lxml')
article = soup.find_all('article')[0]
text = article.find_all('p')[1].text
print(text)
Дает это:
'Если вы \ x80 \ x99re разработчик приложений для Mac или iOS, которые используют сети,В инструментах разработчика для Mac OS X 10.7 появилась новая функция \ x80 \ x99s \ x80 \ x9cLionâ \ x80 \ x9d (прочитайте мой обзор в The Guardian), которая будет вам полезна.Эта краткая статья описывает, как это работает. '
Я могу использовать это для преобразования таких частей, как â \ x80 \ x99:
converted_text = bytes(text, 'latin-1').decode('utf-8')
На самом деле работает.
Но если выполучить другую часть текста:
text = article.find_all('p')[8].text
Дает мне:
'\ n ← Найти шаблоны в тексте на Lion \ nИспользовать пробелы в OS X Lion → \ n'
И использование bytes(text, 'latin-1')
дает мне:
кодек 'latin-1' не может кодировать символ '\ u2190' в позиции 1: порядковый номер не в диапазоне (256)
IПредположим, это стрелки?Как я могу сделать так, чтобы все нелатинские символы автоматически игнорировались и отбрасывались.
Любые идеи будут наиболее полезны!