Question

Мне было интересно, есть ли способ извлечь данные из таблицы HTML и разобрать их в словарь, используя только HTMLParser.Я не могу сделать это по какой-то причине ..

dangerChihuahua007 · Answer 1 · 04 марта 2012

Вы можете использовать lxml для анализа веб-страницы. http://lxml.de/

Вы можете очистить веб-страницу с помощью

from lxml.html import parse
    site = parse('http://java.sun.com')

Здесь возвращается дерево элементов lxml: http://lxml.de/api.html

Затем вы можете использовать xpath для получения содержимого HTML (http://www.w3schools.com/xpath/):

tableData = site.xpath('//table//td[@id="someTdID"]')

lxml - довольно мощная библиотека, которая широко используется для очистки данных. Затем вы можете передать эти данные в словари / списки Python или обработать их так, как вам нравится.

Разбор HTML-таблиц в списки в Python без BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор HTML-таблиц в списки в Python без BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы