Для просмотра веб-страниц и анализа xml, что является лучшей библиотекой для изучения - PullRequest
0 голосов
/ 03 февраля 2020

Я путаюсь с несколькими библиотеками для одной и той же работы. Я хочу изучить одну библиотеку, которая будет обрабатывать как xml, так и html. Do elementtree совместим для html разбора. Я слышал о l xml, xml .elementtree, красивом супе, минидоме, скрапе. Кто-нибудь может мне помочь.

1 Ответ

0 голосов
/ 03 февраля 2020

Scrapy используется для очистки веб-страниц (извлечения данных из веб-страниц), отсюда и название.

Beautiful Soup - библиотека для анализа / извлечения данных из XML и HTML файлов.

xml .elementtree обеспечивает объектное представление файла XML, и это XML модуль обработки пакета Python XML. Его удобно использовать для анализа и обработки данных в формате XML.

l xml, как они заявляют, совместимы, но превосходят элементное дерево модуля Python XML но, по сути, делает то же самое, однако я никогда не использовал его для разбора файлов HTML.

По своему опыту я использовал Scrapy для извлечения данных из различных пользовательских панелей, у которых не было какого-либо API для извлечения данных. , Тем не менее, парсинг HTML файлов я в основном делал с Beautiful Soup, так как он действительно аккуратный и простой в использовании. Что касается синтаксического анализа XML, я в основном использовал пакет Python XML, однако у меня никогда не было сложного синтаксического анализа XML, чтобы пакет Python XML покрывал все, что мне нужно.

Правильный инструмент действительно зависит от ваших требований. Если вам нужна библиотека для разбора файлов XML и HTML, то я бы go с Beautiful Soup, поскольку она действительно проста в использовании и у вас есть обширная документация в Интернете.

...