Сравнение лексики английских текстов - PullRequest
1 голос
/ 23 января 2011

Давайте представим, мы можем построить статистическую таблицу, сколько каждого слова используется в каком-то английском тексте или книге.Мы можем собрать статистику для каждого текста / книги в библиотеке.Какой самый простой способ сравнить эти статистические данные друг с другом?Как мы можем найти группу / группу текстов с очень статистически похожей лексикой?

Ответы [ 3 ]

1 голос
/ 23 января 2011

Во-первых, вам нужно нормализовать лексику (т.е. убедиться, что оба лексикона имеют одинаковый словарь).

Затем вы можете использовать метрику сходства, такую ​​как Hellengerрасстояние или косинусное сходство для сравнения двух лексиконов.

Также может быть хорошей идеей изучить пакеты машинного обучения, такие как Weka .

Эта книга является отличным источником для машинного обучения, и вы можете найти его полезным.

0 голосов
/ 23 января 2011

Вы можете рассмотреть расстояние Кулбека Лейблера.Для справки см. Стр. 18 «Cover and Thomas»:

Глава 2 «Cover and Thomas»

0 голосов
/ 23 января 2011

Я хотел бы начать с того, что Люсен (http://lucene.apache.org/java/docs/index.html) должен был предложить. После этого вам нужно будет использовать метод машинного обучения и посмотреть на http://en.wikipedia.org/wiki/Information_retrieval.

...