классифицировать сайты - с открытым исходным кодом LSI? - PullRequest
3 голосов
/ 24 марта 2010

Я собираюсь классифицировать множество веб-сайтов (миллионы). Я могу использовать Nutch для их сканирования и получения контента сайтов, но я ищу лучший (и самый дешевый или бесплатный) инструмент для их классификации.

Одним из вариантов является создание регулярных выражений, которые ищут определенные ключевые слова и классифицируют сайты, но есть и инструменты типа LSI высокого класса, такие как Autonomy. Существуют ли какие-либо инструменты с открытым исходным кодом или более дешевые, которые будут брать текст с веб-страницы / сайта и классифицировать его для меня? Мне нужна некоторая настройка типов используемых категорий. В рамках классификации я хотел бы иметь возможность распознавать «фальшивые» сайты, которые на самом деле являются просто припаркованными страницами, или доменеры, которые размещают рекламу на страницах, а также просто старые категории, как это новости, спорт, наука здоровье, еда, развлечения и т.д ...

...