Question

Я использовал BeautifulSoup, но, насколько я понимаю, библиотека больше не поддерживается.Так что я должен использовать?Я слышал о Xpath, но что еще там?

Nick Bastin · Answer 1 · 14 июля 2010

В апреле был выпущен релиз исправления ошибки, поэтому я даже не уверен, откуда вы взяли, что он больше не поддерживается.Тем не менее, даже если бы это было правдой, BeautifulSoup все еще достаточно функционален, и я даже не вижу, чтобы текущая реализация сломалась в ближайшее время.У вас могут возникнуть проблемы с HTML 5 в течение следующих 2 лет (хотя причуда намного меньше, поэтому анализ легче, по крайней мере, пока), но нет особой причины не использовать BeautifulSoup.Сообщество по-прежнему активно поддерживает группу Google и т. Д., И, разумеется, исходный код доступен для улучшения по мере необходимости.

fmark · Answer 2 · 14 июля 2010

Я бы держался подальше от lxml, это слишком капризно на мой вкус. Я бы попробовал html5lib на вашем месте. Он не только анализирует html, но и исправляет ошибки, которые вы видите в супе тега, известном как недействительный html.

Он даже имеет режим эмуляции BeautifulSoup, генерируя дерево разбора в форме Beautiful Soup, чтобы упростить перенос старого кода:

import html5lib
from html5lib import treebuilders

f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)

Borealid · Answer 3 · 14 июля 2010

Ну, если вы не обязаны работать с Python, вы всегда можете использовать парсер TagSoup. Это библиотека Java, но она дает очень хорошие результаты. Вы также можете просто использовать Tidy для очистки ввода, прежде чем пытаться его проанализировать.

Нет больше BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет больше BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов