Постановка задачи:
Я создаю вложения Word для определенного домена, и я хотел бы оценить эти вложения с помощью некоторого набора тестов на их пригодность (внутренняя оценка). Я мог видеть, что большинство наборов данных для проверки с открытым исходным кодом созданы для проверки языковых моделей. Может ли кто-нибудь пролить свет на процесс создания набора проверки, аналогичного WS-353 или любому другому эквивалентному набору данных, который можно использовать для оценки вложений Word для определенного домена.
Заранее большое спасибо.
Мой анализ:
Когда я анализировал набор данных WS-353, я мог видеть, что большинство слов, присутствующих в наборе данных, являются существительными и в других наборах данных, которые я мог видетьГлаголы, Существительные, Наречия и т. Д. Есть ли конкретный процесс вокруг создания таких проверочных наборов? Какова стратегия, используемая для создания таких наборов данных?
PS: я знаю, что некоторые из этих наборов данных разработаны для определенной цели, но если мы просто хотим создать набор проверки, который похож на wordsim-353. Рекомендуется ли следовать аналогичному процессу, которому следовали создатели wordsim-353?
https://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/
Публично доступные наборы данных для проверки вложений Word:
Наборы слов Wordхожести
- Элемент списка
- WS-353
- WS-353-SIM
- WS-353-REL
- MC-30
- RG-65
- Редкие слова (RW)
- MEN
- MTurk-287
- MTurk-771
- YP-130
- SimLex-999
- Глагол-143
- SimVerb-3500
Наборы аналоговых данных Word
- Набор данных Google
- Набор данных MSR
Наборы категорий классификации
- Набор данных AP
- Набор данных BLESS
- Набор данных BM
Наборы данных обнаружения выбросов
- Набор данных WordSim-500
- 8-8-8 набор данных
Ссылки:
https://arxiv.org/pdf/1901.09785
https://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/
https://www.aclweb.org/anthology/D15-1036
https://arxiv.org/pdf/1901.09785
https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12454/12257
https://cs224d.stanford.edu/lecture_notes/notes2.pdf
https://arxiv.org/abs/1801.09536
http://www.cl.cam.ac.uk/~ek358/CEWE_Final_lecture.pdf
http://www.marekrei.com/pub/Constructing_and_Evaluating_Word_Embeddings.pdf