Так что я думаю, что вы ищете (основываясь на комментариях) API WordNet.
Если китайский формат такой же, вы можете использовать WordNet API, который поставляется с вашей установкой.Это библиотека C, вы можете найти документацию здесь:
http://wordnet.princeton.edu/wordnet/documentation/
В основном - вот как это работает.Synset - это группа синонимичных терминов для идентифицированного набора, который уникально идентифицируется по идентификатору набора (00469856).Synsets связаны с другими synsets через различные формы семантических отношений.Большинство показателей сходства работают путем поиска одного Synset (по номеру, указанному вами ниже, API должен это поддерживать), а затем выясняют, насколько далеко находится другой Synset, используя различные метрики.
Синсет также содержит текстовое описание семантического значения этого набора - стандартное определение словаря, к которому мы привыкли.В некоторых случаях некоторые метрики сходства (например, алгоритм Леска) используют текстовое описание, чтобы сравнить, насколько «похожи» два синтаксиса друг на друга.
Существуют и другие API, которые позволяют вам искать и получать доступ к WordNet через его API на разных языках.
http://wordnet.princeton.edu/wordnet/related-projects/
Например, вот пример определения Synset из файлов словаря WordNet 3.0:
00020671 29 v 04 загипнотизировать 0 гипнотизировать 0 загипнотизировать 0 загипнотизировать 0 (... больше не учтено) ...
Уникальный идентификатор 00020671 идентифицирует этот набор.Здесь есть четыре синонима для гипноза.