Xpath против DOM против BeautifulSoup против lxml против других Какой самый быстрый способ проанализировать веб-страницу? - PullRequest
6 голосов
/ 01 декабря 2011

Я знаю, как разобрать страницу, используя Python. У меня вопрос, какой из всех методов разбора самый быстрый, насколько он быстр от других?

Мне известны следующие методы синтаксического анализа: Xpath, DOM, BeautifulSoup и использование find метода Python.

Ответы [ 2 ]

9 голосов
/ 01 декабря 2011
1 голос
/ 01 декабря 2011

lxml был написан на C. И если вы используете x86, то лучше выбрать. Если говорить о методах, то между Xpath и DOM нет большой разницы - это очень быстрые методы. Но если вы будете использовать find или findAll в BeautifulSoup, это будет медленнее, чем другие. BeautifulSoup был написан на Python. Эта библиотека требует много памяти для анализа любых данных и, конечно, она использует стандартные методы поиска из библиотек Python.

...