Как программно майнить дампы твитера sql. - PullRequest
0 голосов
/ 05 ноября 2011

У меня есть дамп твитера mysql. Я хочу построить классификатор на этом дампе. Я хочу знать, есть ли доступные пакеты, которые я могу использовать и какой тип классификатора я должен использовать. Я хочу построить этот классификатор с использованием Java.

Ответы [ 2 ]

2 голосов
/ 05 ноября 2011

Я бы предложил вам использовать WEKA: http://www.cs.waikato.ac.nz/ml/weka/ - WEKA содержит большое количество алгоритмов и утилит для анализа данных.

Он имеет графический интерфейс, в котором вы можете экспериментировать с различными конфигурациями и комбинациями классификаторов и фильтров для ваших данных, а когда вы построите хорошую модель, вы можете либо встроить WEKA в свою Java-программу (это также Java), и используйте его с заранее созданной моделью, чтобы предсказать класс, или используйте его, чтобы постоянно улучшать модель. Или после использования WEKA для экспериментов вы можете реализовать получившееся дерево решений или что-то еще в своем собственном приложении, чтобы вам не приходилось включать WEKA.

Вы, вероятно, хотите использовать твит «мешок слов» и использовать классификатор, такой как многослойный персептрон, наивный байесовский анализ или J48 - все это доступно для экспериментов в WEKA.

Проверьте эту страницу: http://weka.wikispaces.com/Text+categorization+with+WEKA - в нижней части страницы приведен пример категоризации текста.

Приветствия,

0 голосов
/ 06 ноября 2011

http://mloss.org/software/downloads/ По этой ссылке есть несколько пакетов. (относится к машинному обучению) Это для кого-то, кто может быть заинтересован в том же. Следовательно, отвечая на мой собственный вопрос. Наслаждайтесь.

...