нужна идея о добыче текста для добычи данных из большого количества файлов - PullRequest
1 голос
/ 21 декабря 2011

Я новичок в области интеллектуального анализа данных.Я готовлюсь на последнем курсе бакалавриата B.Tech, и мой последний год называется «Извлечение и анализ эффективности преподавательской дисциплины из обратной связи со студентами с помощью интеллектуального анализа текста».Здесь у нас будет количество файлов, в которых содержатся отзывы учеников, у каждого ученика будет один файл.Из всех этих файлов мы должны получить полезную информацию.

Может ли кто-нибудь подсказать мне, с чего начать, какие инструменты использовать?Какие технологии будут использоваться?Я знаком с JAVA (jse), могу ли я достичь этого, используя язык программирования Java, как?

С уважением ... Upendra.S

Ответы [ 3 ]

3 голосов
/ 25 декабря 2011

Некоторые идеи:

  • , какие слова или фразы используются наиболее часто?
  • , какие слова часто встречаются вместе (анализ ассоциации)
  • слово / фразачастота по классам учащихся (какие слова используют учащиеся старших и младших классов в своих обзорах проф?)
  • частота слов / фраз по рейтингу преподавателей (какие слова связаны с оценкой, которую студенты дают преподавателю?)
  • частота слов / фраз в зависимости от преподавательского состава (какие слова связаны с новыми и старшими специалистами?)

вот моя серия из пяти частей по интеллектуальному анализу текста с rapidminer:

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html

1 голос
/ 22 декабря 2011

Я считаю, что Rapidminer имеет расширение для интеллектуального анализа текста.Тогда есть JTMT.

Также используйте функцию поиска здесь:

Также ознакомьтесь с сообществом Data mining для обучения.У них, вероятно, есть похожие задачи.

0 голосов
/ 27 апреля 2012

По-моему, вы можете пройтись по этим темам.Это помогло в одном из моих проектов.

Инструмент - Matlab TMG инструмент .

Используемый алгоритм - Скрытый семантический анализ.( Пример LSA )

Математическая концепция - Разложение по сингулярному значению.( SVD )

...