Разбор Python HTML - PullRequest
       7

Разбор Python HTML

0 голосов
/ 04 февраля 2011

В настоящее время я пытаюсь создать программу, для которой задано слово, которое будет искать его определение и возвращать его.Хотя я заставил это работать, мне пришлось прибегнуть к использованию RegEx для поиска текста между тегами, где хранятся определения.Что является более эффективным способом сделать это с помощью Python 3.x?

Ответы [ 3 ]

5 голосов
/ 04 февраля 2011

lxml работает для Python 3. Он имеет API-интерфейс, совместимый с ElementTree, но использует закулисные библиотеки c, поэтому работает быстро и поддерживает Xpaths, что является хорошим способом анализа (иногда) .

4 голосов
/ 04 февраля 2011

Попробуйте BeautifulSoup хороший анализатор HTML для Python. (работает и с Python 3.x, хотя, если вы не глубоко в проекте Python 3.0, рассмотрите возможность использования 2.7)

2 голосов
/ 04 февраля 2011

Это довольно простое требование, когда дело доходит до разбора HTML.Стандартная библиотека Python включает в себя модуль ElementTree , который должен помочь выполнить задачу, которую вы планируете выполнить.Посмотрите на фрагмент кода, который приведен на этой странице.

Кроме того, никогда не допускает ошибку в разборе HTML / XML с помощью регулярных выражений.Вы можете не знать, когда это станет безумно сложным, и это плохая идея в любой ситуации.

...