Сравнение значений слов - PullRequest
0 голосов
/ 28 марта 2019

У меня есть два корпуса документов, и я пытаюсь выяснить, какие слова более важны для первого корпуса (относительно). Мой первый корпус также является подмножеством второго, поэтому каждое слово в нем также находится во втором корпусе. Есть ли алгоритм / метод для этого?

Мой нынешний подход заключается в том, чтобы вычислить отношение частот встречаемости по всему корпусу / частоты между документами для обоих копри, и слова с наибольшим увеличением их соотношения от корпуса 2 к корпусу 1 являются наиболее "важными" относительно (Меня не волнует важное в корпусе, только по отношению к другому корпусу). Тем не менее, отношения могут быть повсюду, поэтому я ищу что-то, что ограничено лучше (или вообще метрика). Любые рекомендации?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...