Классификация текстовых указателей - PullRequest
0 голосов
/ 25 ноября 2011

Я пытаюсь разработать очень простую программу для классификации и классификации документов с использованием различных алгоритмов.Моя проблема, так как я новичок в том, что я не могу найти хорошие статьи или веб-сайты для простых руководств о том, как начать работу с ним.Я прочитал довольно мало ресурсов, и я узнал много вещей, но каждый документ, сайт и т. Д. Я читал, что использует разные методы, анализирует проблему по-разному, предлагает различные решения и т. Д., Поэтому я запутался.Есть ли какие-нибудь хорошие ресурсы, на которые вы можете указать мне, чтобы начать с фактической реализации?

Также я ищу фактические тестовые данные и, в частности, документы, которые классифицированы, чтобы я мог «кормить» свои алгоритмы.Любая помощь приветствуется.Спасибо.

1 Ответ

1 голос
/ 25 ноября 2011

Для Python ознакомьтесь с учебником scikit-learn по классификации текста .См. Также демонстрационный скрипт , который запускает десятки различных алгоритмов классификации текста (включая наивные байесовские и SVM) в наборе данных двадцатки групп новостей .[Отказ от ответственности: я соавтор этих вещей.]

Для Weka, вот учебник .

...