Я ищу какой-то набор данных для оценки алгоритма измерения семантического сходства между двумя словами.
Для случая с одним словом, такого как «побережье» и «берег», набор данных Rubenstein и Goodenough будет одним из популярных и надежных наборов данных.
Набор данных Рубенштейна и Гуденафа: https://dl.acm.org/citation.cfm?id=365657
Однако мне также нужны надежные наборы данных для измерения сходства между составными словами, такими как "водостойкий" и "акварель", и двумя словами, такими как "черная ручка "и" красный карандаш ".
Кто-нибудь знает соответствующий набор данных для оценки алгоритма измерения подобия в области компьютерной лингвистики?