Question

Я хочу проанализировать документ на предмет таких элементов, как буквы, биграммы, слова и т. Д., И сравнить, как часто они встречаются в моем документе, с тем, как часто они встречались в большом объеме документов.

Идея состоит в том, что такие слова, как "если", "и", "the", встречаются во всех документах, но некоторые слова будут встречаться в этом документе гораздо чаще, чем это характерно для корпуса.

Это должно быть довольно стандартно. Как это называется? Делая это очевидным образом, у меня всегда были проблемы с новыми словами в моем документе, но не в бесконечно значимом рейтинге корпусов. Как с этим справляются?

matcheek · Answer 1 · 07 декабря 2010

Скорее всего, вы уже проверили tf-idf или другие метрики из семейства okapi_bm25 .

, также вы можете проверить обработку естественного языкаИнструментарий NLTK для некоторых готовых решений

ОБНОВЛЕНИЕ: как и для новых слов, следует применять сглаживание: Good-Turing , Лаплас и т. д.

Marcelo Cantos · Answer 2 · 07 декабря 2010

Он относится к линейным классификаторам, причем наивные байесовские классификаторы являются наиболее известной формой (благодаря своей удивительной простоте и надежности в решении задач классификации в реальном мире).

Сравнение частот текста в документе с частотой в корпусе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сравнение частот текста в документе с частотой в корпусе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы