Лучший способ собрать описательный набор тегов о компании из ее URL? - PullRequest
3 голосов
/ 28 июня 2011

Я довольно неосведомлен о том, что появляется в html / javascript веб-сайте, потому что я трачу большую часть своего времени на серверную часть (формулировка!).По сути, я хочу знать, как лучше получить URL-адрес компании, например, PETA , и из этого URL-адреса найти описательные слова о компании из HTML-кода на первой странице.Таким образом, вы можете быстро запустить веб-сайт категоризации с автоматической пометкой, указав только список URL-адресов компаний.

Если это разумно, любые рекомендации по инструментам / процессам для поиска / извлечения контента будут приветствоваться.1005 *

А если нет или у вас есть лучшая идея, чтобы получить теги, пусть это также будет известно!

Ответы [ 2 ]

1 голос
/ 29 июня 2011

Майк Свифт слишком корректен - если вы ищете только категоризацию, то все, что вам нужно сделать, - это проанализировать DMOZ категоризации.Сервис Amazon использует DMOZ для получения категорий в любом случае, и он бесплатный (в отличие от AWIS).Например, проанализируйте эту ссылку, чтобы получить категории для PETA.

Если вы ищете инструменты для синтаксического анализа, мне вполне понравилось Nokogiri , но любойработает инструмент веб-парсинга, такой как BeautifulSoup .Я бы разобрал это с чем-то вроде:

Nokogiri::HTML(open('<site>'))
doc.css('ol.dir li a').map {|item| [item.content]}

Надеюсь, это поможет!

0 голосов
/ 28 июня 2011

Почему бы просто не использовать API Alexa Webinfo?Его легко использовать, и вы можете получить ключевые слова, а также много полезной информации о ссылке.(Плюс это часть AWS, что означает хорошую скорость и надежность)

Общая информация и регистрация

http://aws.amazon.com/awis/

Документы:

http://docs.amazonwebservices.com/AlexaWebInfoService/latest/

Образцы кода:

http://aws.amazon.com/code?_encoding=UTF8&jiveRedirect=1

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...