Предложения по получению результатов поиска Google и очистке тегов HTML - PullRequest
1 голос
/ 05 марта 2011

Я работаю над проектом, чтобы получить веб-страницы поиска Google, а затем очистить теги HTML, чтобы получить чистый текстовый контент.

Любые предложения по доступным инструментам (особенно инструменты Python)

многиеспасибо.

Ответы [ 3 ]

2 голосов
/ 05 марта 2011

Я бы взял Pattern , который представляет собой модуль веб-майнинга Python, предоставляющий набор инструментов для поиска, анализа и визуального анализа текста. Я лично не использовал это, но выглядит мощным.

Модуль pattern.web - это веб-инструментарий, который объединяет различные API (Google, Gmail, Bing, Twitter, Wikipedia, Flickr) с надежным анализатором HTML и веб-пауком. Его целью является извлечение онлайн-контента простым в использовании, унифицированным способом.

0 голосов
/ 15 сентября 2011

Наконец-то нашел хороший набор BootCat .

0 голосов
/ 05 марта 2011

Python имеет встроенный, который на самом деле довольно быстрый, найденный здесь .Существует также действительно мощный инструмент под названием Beautiful Soup , который предлагает дополнительные функции, особенно для очистки HTML.

Однако я также должен спросить, почему бы не использовать API поиска?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...