Из Google Analytics у меня есть (длинный) список ключевых слов, которые люди использовали в поисковых системах, чтобы найти мой сайт.Я хочу найти «ключевые слова», гипотетический пример:
java online training
learning java
scala training
training for java
online training java
learn scala programming
Идеальный результат: «java», «онлайн-обучение», «training», «scala» и «learn».
Кажется, что трудность заключается в обнаружении полных фраз, игнорировании общих слов (для) и обработке вариаций (обучение-изучение).
Есть ли библиотека, которая может это сделать (предпочтительно для JVM)?Или есть подходящий алгоритм, который я могу реализовать сам?