Это имхо не возможно.Вам нужно как минимум семантическое отношение между двумя словами, то есть токенами.Если у вас есть что-то вроде базы данных, включающей семантические отношения синонимов, вы, конечно, можете сгенерировать эти данные.
Одним из примеров будет wiktonary (дамп XML: Link ).Но, возможно, есть и другие примеры словарей, но я думаю, что вы не получите такой исчерпывающий источник, как пожелаете.Разбор XML-дамп Wiktonary, возможно, ваш лучший выбор, и вы даже можете выровнять синонимы на разных языках, если у вас есть многоязычный индекс.