Во-первых, этот пример не будет работать. Принцип заключается в том, что чем чаще слова встречаются в сходных контекстах, тем больше они связаны по смыслу. Поэтому между входными документами должно быть некоторое совпадение. Документы с длиной абзаца идеальны (так как в них есть разумное количество слов и в каждом абзаце, как правило, одна тема).
Чтобы понять, как LSA полезен для распознавания синонимов, вам нужно сначала понять, как представление векторного пространства (первая полученная там матрица) вхождений слов полезно в первую очередь для распознавания синонимов. Это потому, что вы можете вычислить расстояние между двумя элементами в этом векторном пространстве высокой размерности как меру их сходства (учитывая, что это мера того, как часто они встречаются вместе). Магия АЛП заключается в том, что она переставляет размеры векторного пространства, так что элементы, которые не встречаются вместе, но встречаются в одинаковых контекстах, объединяются в результате сходства одинаковых измерений друг с другом.
Идея весовой функции TFIDF состоит в том, чтобы выделить различия между документами, придав более высокие значения весам для слов, которые появляются больше в меньшем подмножестве корпуса, и меньшие веса для слов, которые используются повсеместно. Более подробное объяснение.
Преобразование "LSA" на самом деле представляет собой разложение по сингулярному значению (SVD) - обычно скрытый семантический анализ или скрытое семантическое индексирование относится к комбинации TFIDF с SVD - и оно служит для уменьшения размерности векторного пространства или в другом словами, это уменьшает количество столбцов в более краткое и более краткое описание (как описано выше).
Итак, чтобы получить суть вашего вопроса: вы можете сказать, насколько похожи слова, применив функцию расстояния к двум соответствующим векторам (строкам). Существует несколько функций расстояния, из которых наиболее часто используемым является косинусное расстояние (которое измеряет угол между двумя векторами).
Надеюсь, это прояснит ситуацию.