Относительно семантического подобия экспериментальных наборов данных для составных слов и двух слов - PullRequest
0 голосов
/ 11 октября 2018

Я ищу какой-то набор данных для оценки алгоритма измерения семантического сходства между двумя словами.

Для случая с одним словом, такого как «побережье» и «берег», набор данных Rubenstein и Goodenough будет одним из популярных и надежных наборов данных.

Набор данных Рубенштейна и Гуденафа: https://dl.acm.org/citation.cfm?id=365657

Однако мне также нужны надежные наборы данных для измерения сходства между составными словами, такими как "водостойкий" и "акварель", и двумя словами, такими как "черная ручка "и" красный карандаш ".

Кто-нибудь знает соответствующий набор данных для оценки алгоритма измерения подобия в области компьютерной лингвистики?

...