Question

У меня около 1000 страниц локально хранятся на диске, содержащем что-то похожее на приведенный ниже пример.

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

Мне нужна помощь, чтобы выяснить, как извлечь строку Дэйва из 3-й строки и загрузить ее вСписок имен пользователей.Также мне нужно извлечь 00000001 из четвертой строки и загрузить его в список UserID.

Пожалуйста, помогите, спасибо ...

pycoder112358 · Answer 1 · 23 февраля 2012

Загляните в модуль html.parser (http://docs.python.org/py3k/library/html.parser.html#module-html.parser).

Aram Kocharyan · Answer 2 · 23 февраля 2012

Вы можете анализировать XHTML / XML, используя MiniDom:

В качестве альтернативы, Python имеет встроенный HTMLParser:

http://docs.python.org/library/htmlparser.html

Как извлечь данные из HTML-страницы, используя Python3.1?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь данные из HTML-страницы, используя Python3.1?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы