Я хочу проанализировать документ на предмет таких элементов, как буквы, биграммы, слова и т. Д., И сравнить, как часто они встречаются в моем документе, с тем, как часто они встречались в большом объеме документов.
Идея состоит в том, что такие слова, как "если", "и", "the", встречаются во всех документах, но некоторые слова будут встречаться в этом документе гораздо чаще, чем это характерно для корпуса.
Это должно быть довольно стандартно. Как это называется? Делая это очевидным образом, у меня всегда были проблемы с новыми словами в моем документе, но не в бесконечно значимом рейтинге корпусов. Как с этим справляются?