Рассчитать концептуальное и относительное сходство двух слов в Java - PullRequest
0 голосов
/ 21 мая 2018

Я реализую формулу читабельности в Java на основе этой статьи.

Я дошел до того, что мне пришлось вычислять концептуальное и реляционное сходство двух или более слов.

Они говорят:

Мы используем инструменты латентного семантического анализа (LSA) для вычисления сходства слов.LSA может выводить семантическую информацию, в том числе сходство, из матрицы совместного использования слова и документа.Совпадения слов / терминов учитываются в движущемся окне фиксированного размера, которое сканирует весь корпус.Модели совместного использования, использующие размеры окон + -1 и + -4, рассматриваются как реляционное сходство и концептуальные семантические модели, соответственно.

Я попытался увидеть некоторые реализации LSA, такие как , эта, но не смог найти простой способ получить то, что я хочу.

Мне, вероятно, нужно иметь матрицу на основе слов, поэтому я попытался использовать библиотеку WS4J для вычисления матрицы на основе двухмассивы строк.

WS4J также имеет метод calcRelatednessOfWords(), но результаты, которые он получает, не совпадают с показанными в статье.

Есть ли библиотека, которая предлагает то, что я хочу?Или кто-нибудь может указать мне правильное направление?

...