Поэтому я проанализировал html-страницу с помощью .findAll
(BeautifulSoup) для переменной с именем result
.
Если я наберу result
в оболочке Python, а затем нажму Enter, я вижу обычный текст, как и ожидалось, но, поскольку я хотел постобработать этот результат как строковый объект, я заметил, что str(result)
возвращает мусор, как в этом примере:
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Источник HTML-страницы имеет кодировку utf-8
Как я могу справиться с этим?
Код в основном такой, на случай, если это имеет значение:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python - 2,7