Question

Давайте представим, мы можем построить статистическую таблицу, сколько каждого слова используется в каком-то английском тексте или книге.Мы можем собрать статистику для каждого текста / книги в библиотеке.Какой самый простой способ сравнить эти статистические данные друг с другом?Как мы можем найти группу / группу текстов с очень статистически похожей лексикой?

Weiser · Answer 1 · 23 января 2011

Во-первых, вам нужно нормализовать лексику (т.е. убедиться, что оба лексикона имеют одинаковый словарь).

Затем вы можете использовать метрику сходства, такую как Hellengerрасстояние или косинусное сходство для сравнения двух лексиконов.

Также может быть хорошей идеей изучить пакеты машинного обучения, такие как Weka .

Эта книга является отличным источником для машинного обучения, и вы можете найти его полезным.

Predictor · Answer 2 · 23 января 2011

Вы можете рассмотреть расстояние Кулбека Лейблера.Для справки см. Стр. 18 «Cover and Thomas»:

Глава 2 «Cover and Thomas»

peter.murray.rust · Answer 3 · 23 января 2011

Я хотел бы начать с того, что Люсен (http://lucene.apache.org/java/docs/index.html) должен был предложить. После этого вам нужно будет использовать метод машинного обучения и посмотреть на http://en.wikipedia.org/wiki/Information_retrieval.

Сравнение лексики английских текстов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сравнение лексики английских текстов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы