Оценить содержание абзаца - PullRequest
4 голосов
/ 09 ноября 2010

Мы создаем базу данных научных работ и проводим анализ рефератов.Цель состоит в том, чтобы сказать: «Интерес к этой теме вырос на 20% по сравнению с прошлым годом».Я уже пробовал анализ ключевых слов и мне не очень понравились результаты.Так что теперь я пытаюсь перейти на фразы и близость слов друг к другу и понять, что я над головой.Может кто-нибудь указать мне на лучшее решение этого или, по крайней мере, дать мне хороший термин для Google, чтобы узнать больше?

Используемый язык - питон, но я не думаю, что это действительно влияет на ваш ответ.Заранее спасибо за помощь.

Ответы [ 2 ]

2 голосов
/ 09 ноября 2010

Это всего лишь предположение;не уверен, что этот подход будет работать.Если вы смотрите на фразы и близость слов, возможно, вы можете создать цепь Маркова?Таким образом, вы можете получить представление о частоте определенных фраз / слов по отношению к другим (на основе порядка вашей цепочки Маркова).

Таким образом, вы строите цепочку Маркова и распределение частот за 2009 год.Затем вы создаете еще один в конце 2010 года и сравниваете частоты (определенных фраз и слов).Возможно, вам придется нормализовать текст.

Кроме этого, на ум приходят методы естественного языка (существует много литературы по этой теме!).

1 голос
/ 09 ноября 2010

Это большая тема, но хорошее введение в НЛП, подобное этому, можно найти с помощью инструментария NLTK.Это предназначено для обучения и работает с Python - т.е.хорошо для занятий и экспериментов.Также на сайте NLTK есть очень хорошая книга с открытым исходным кодом (также в бумажном виде от O'Reilly).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...