Разбор HTML-таблиц в списки в Python без BeautifulSoup - PullRequest
0 голосов
/ 03 марта 2012

Мне было интересно, есть ли способ извлечь данные из таблицы HTML и разобрать их в словарь, используя только HTMLParser.Я не могу сделать это по какой-то причине ..

1 Ответ

1 голос
/ 04 марта 2012

Вы можете использовать lxml для анализа веб-страницы. http://lxml.de/

Вы можете очистить веб-страницу с помощью

from lxml.html import parse
    site = parse('http://java.sun.com')

Здесь возвращается дерево элементов lxml: http://lxml.de/api.html

Затем вы можете использовать xpath для получения содержимого HTML (http://www.w3schools.com/xpath/):

tableData = site.xpath('//table//td[@id="someTdID"]')

lxml - довольно мощная библиотека, которая широко используется для очистки данных. Затем вы можете передать эти данные в словари / списки Python или обработать их так, как вам нравится.

...