Во-первых, вам нужно нормализовать лексику (т.е. убедиться, что оба лексикона имеют одинаковый словарь).
Затем вы можете использовать метрику сходства, такую как Hellengerрасстояние или косинусное сходство для сравнения двух лексиконов.
Также может быть хорошей идеей изучить пакеты машинного обучения, такие как Weka .
Эта книга является отличным источником для машинного обучения, и вы можете найти его полезным.