С BeautifulSoup я бы сделал что-то вроде этого:
from BeautifulSoup import BeautifulSoup
from pprint import pprint
def parseList(tag):
if tag.name == 'ul':
return [parseList(item)
for item in tag.findAll('li', recursive=False)]
elif tag.name == 'li':
if tag.ul is None:
return tag.text
else:
return (tag.contents[0].string.strip(), parseList(tag.ul))
soup = BeautifulSoup(lista)
pprint(parseList(soup.ul))
Пример вывода:
[(u'Arts & Entertainment',
[u'Celebrities & Entertainment News',
(u'Comics & Animation',
[u'Anime & Manga', u'Cartoons', u'Comics'])])]
Обратите внимание, что для элементов списка, которые содержат ненумерованныеlist, возвращается кортеж, в котором первый элемент является строкой в элементе списка, а второй элемент является списком с содержимым ненумерованного списка.