У меня есть два корпуса документов, и я пытаюсь выяснить, какие слова более важны для первого корпуса (относительно). Мой первый корпус также является подмножеством второго, поэтому каждое слово в нем также находится во втором корпусе. Есть ли алгоритм / метод для этого?
Мой нынешний подход заключается в том, чтобы вычислить отношение частот встречаемости по всему корпусу / частоты между документами для обоих копри, и слова с наибольшим увеличением их соотношения от корпуса 2 к корпусу 1 являются наиболее "важными" относительно (Меня не волнует важное в корпусе, только по отношению к другому корпусу). Тем не менее, отношения могут быть повсюду, поэтому я ищу что-то, что ограничено лучше (или вообще метрика). Любые рекомендации?