Как просеивать идиомы и отличать фразы от других распространенных фраз, используя технику НЛП? - PullRequest
1 голос
/ 28 декабря 2010

Какие существуют методы, которые могут показать разницу между простыми общими фразами, такими как «to», «and», и набором фраз и идиом, которые имеют свои собственные лексические значения, такие как «подобрать», «влюбиться»,"красная сельдь", "тупик"?

Существуют ли методы, которые успешны даже без словаря, статистические методы, например, HMM обучают на больших корпусах?

Или есть эвристики, такие как игнорированиеили утяжеление «беспорядочных» слов, которые могут встречаться практически со всеми словами, по сравнению со словами, которые встречаются отдельно или в определенном ограниченном наборе идиоматических фраз?

Если есть такая эвристика, как мы можем принятьфразы набора аккаунта и словесные фразы, которые включают в себя неразборчивые слова, такие как «вверх» в «бить», «съесть», «сидеть», «придумать»?

ОБНОВЛЕНИЕ

В Интернете я нашел интересную статью: Идентификация идиоматических выражений без надзора типа и токена

1 Ответ

2 голосов
/ 29 декабря 2010

Вы ищете определение коллокации?

Взгляните на эту главу в превосходной книге «Основы обработки естественного языка» Мэннинга и Шютце.

...