Я реализую формулу читабельности в Java на основе этой статьи.
Я дошел до того, что мне пришлось вычислять концептуальное и реляционное сходство двух или более слов.
Они говорят:
Мы используем инструменты латентного семантического анализа (LSA) для вычисления сходства слов.LSA может выводить семантическую информацию, в том числе сходство, из матрицы совместного использования слова и документа.Совпадения слов / терминов учитываются в движущемся окне фиксированного размера, которое сканирует весь корпус.Модели совместного использования, использующие размеры окон + -1 и + -4, рассматриваются как реляционное сходство и концептуальные семантические модели, соответственно.
Я попытался увидеть некоторые реализации LSA, такие как , эта, но не смог найти простой способ получить то, что я хочу.
Мне, вероятно, нужно иметь матрицу на основе слов, поэтому я попытался использовать библиотеку WS4J для вычисления матрицы на основе двухмассивы строк.
WS4J также имеет метод calcRelatednessOfWords()
, но результаты, которые он получает, не совпадают с показанными в статье.
Есть ли библиотека, которая предлагает то, что я хочу?Или кто-нибудь может указать мне правильное направление?