Экран Python скрести весь сайт - PullRequest
0 голосов
/ 01 октября 2011

Я хочу создать небольшую программу, которая будет использовать каждое слово с любым смыслом на любом сайте Он предназначен для Python, и я слышал о BeautifulSoup, но я не совсем знаю, как использовать его для этой цели ... небольшой учебник? :п Или это так просто, как регулярное выражение? лайк: re.compile('<.*>(.*)<.*>') так что все в скобках? Новые строки и прочее уже сделано;)

спасибо заранее, ребята, и извините за незначительный английский ...

Ответы [ 2 ]

1 голос
/ 01 октября 2011

Механизация - это библиотека python, которая позволяет выполнять http-запросы и даже предоставляет некоторую возможность для анализа html и извлечения данных, которые вы ищете.Его главная особенность заключается в том, что он может работать как браузер и обрабатывать такие вещи, как аутентификация и файлы cookie.

Regex не идеален при работе с XML / HTML (вы увидите).Вы можете использовать BeautifulSoup в сочетании с Mechanize, если вы предпочитаете эту библиотеку анализа.Изучение таких вещей, как XPath, также может упростить вашу жизнь.

Как по механизму, так и по BeautifulSoup есть учебники, так что начните читать код!

1 голос
/ 01 октября 2011

Scrapy облегчает сканирование веб-страниц.Он также имеет отличную документацию и команда scrapy startproject создаст для вас скелетный проект.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...