Как извлечь данные из HTML-страницы, используя Python3.1? - PullRequest
0 голосов
/ 23 февраля 2012

У меня около 1000 страниц локально хранятся на диске, содержащем что-то похожее на приведенный ниже пример.

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

Мне нужна помощь, чтобы выяснить, как извлечь строку Дэйва из 3-й строки и загрузить ее вСписок имен пользователей.Также мне нужно извлечь 00000001 из четвертой строки и загрузить его в список UserID.

Пожалуйста, помогите, спасибо ...

Ответы [ 2 ]

1 голос
/ 23 февраля 2012

Загляните в модуль html.parser (http://docs.python.org/py3k/library/html.parser.html#module-html.parser).

0 голосов
/ 23 февраля 2012

Вы можете анализировать XHTML / XML, используя MiniDom:

В качестве альтернативы, Python имеет встроенный HTMLParser:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...