Какие существуют методы, которые могут показать разницу между простыми общими фразами, такими как «to», «and», и набором фраз и идиом, которые имеют свои собственные лексические значения, такие как «подобрать», «влюбиться»,"красная сельдь", "тупик"?
Существуют ли методы, которые успешны даже без словаря, статистические методы, например, HMM обучают на больших корпусах?
Или есть эвристики, такие как игнорированиеили утяжеление «беспорядочных» слов, которые могут встречаться практически со всеми словами, по сравнению со словами, которые встречаются отдельно или в определенном ограниченном наборе идиоматических фраз?
Если есть такая эвристика, как мы можем принятьфразы набора аккаунта и словесные фразы, которые включают в себя неразборчивые слова, такие как «вверх» в «бить», «съесть», «сидеть», «придумать»?
ОБНОВЛЕНИЕ
В Интернете я нашел интересную статью: Идентификация идиоматических выражений без надзора типа и токена