Есть ли хорошо известная библиотека классификаторов? - PullRequest
0 голосов
/ 29 октября 2009

Я сканирую данные из интернета без классификации.

Можно ли порекомендовать такую ​​библиотеку?

EDIT

Я сканирую задания с других веб-сайтов, и мне нужно сгруппировать их по различным отраслям.

Ответы [ 2 ]

1 голос
/ 08 сентября 2010

Для сортировки немаркированных данных по группам требуется кластеризация, а не классификация. Самая полная библиотека машинного обучения - Java Weka . Возможно, вы захотите начать с извлечения текста с веб-страниц (полностью удалить элементы скрипта и стиля, удалить другие теги), а затем пропустить текст через фильтр StringToWordVector перед выполнением кластеризации.

0 голосов
/ 29 октября 2009

Мой нынешний работодатель разработал систему для классификации веб-страниц. Не было никаких полезных библиотек, которые мы могли бы найти, поэтому мы должны были сделать свои собственные. Мы не лицензируем наши.

Я могу дать вам несколько советов. Анализаторы спама классифицируют электронную почту как нежелательную или нежелательную. Вы можете использовать те же инструменты, что и байесовский, CRM-114 и т. Д., Чтобы самостоятельно классифицировать любой текст, включая веб-страницы.

Вам нужно будет очень внимательно следить за их результатами и дать им лот отзывов людей. Вы часто можете найти наборы ключевых слов, которые будут очень хорошо для вас. Поиск этих наборов ключевых слов потребует времени и усилий, а со временем и изменится.

Вам придется написать код, чтобы разделить веб-страницы на разделы тем, потому что большинство страниц - это не все. Есть рекламные рамки, навигация и прочее.

...