Алгоритмы / методы для составления дискуссий на форумах в категорированных статьях или информации? - PullRequest
0 голосов
/ 27 ноября 2011

Я разрабатываю и кодирую систему обмена знаниями на основе знаний (форум, вопросы и ответы, обмен статьями между студентами, профессорами и экспертами) на Java для Интернета.

Мне нужно использовать некоторые данные /методы / алгоритмы обработки текста для анализа дискуссий между экспертами и учащимися (обсуждения разбиты по категориям с использованием тегов) и создания надлежащих заметок и сборников по конкретным схожим темам.

Я не эксперт в отношении таких доступных алгоритмов или инструментов.Было бы здорово, если бы кто-нибудь мог дать мне несколько советов или объяснить, как я могу решить эту проблему.

Спасибо !!

Ответы [ 2 ]

0 голосов
/ 21 января 2012

Для категоризации статей вы можете использовать метод LSA (скрытый семантический анализ).

Вы можете проверить эти инструменты для обработки текста.

  1. LingPipe : набор инструментов для обработки текста.

  2. Lucene : интеллектуальный анализ текста

  3. Solr : Мощный инструмент поиска текста

0 голосов
/ 30 ноября 2011

Начните читать на Text Mining.На ваш вопрос нет общего ответа, потому что он недостаточно точен.Вы должны быть более точными в своих целях, тогда люди могут предложить методы для них.Ваш "анализ" слишком широк.Подсчет количества слов тоже «анализ»!

Итак: что вы хотите распознать, сгруппировать или предсказать?

...