Как создать валидационный набор для оценки встраиваемых встраиваемых приложений Word? - PullRequest
0 голосов
/ 18 октября 2019

Постановка задачи:

Я создаю вложения Word для определенного домена, и я хотел бы оценить эти вложения с помощью некоторого набора тестов на их пригодность (внутренняя оценка). Я мог видеть, что большинство наборов данных для проверки с открытым исходным кодом созданы для проверки языковых моделей. Может ли кто-нибудь пролить свет на процесс создания набора проверки, аналогичного WS-353 или любому другому эквивалентному набору данных, который можно использовать для оценки вложений Word для определенного домена.

Заранее большое спасибо.

Мой анализ:

Когда я анализировал набор данных WS-353, я мог видеть, что большинство слов, присутствующих в наборе данных, являются существительными и в других наборах данных, которые я мог видетьГлаголы, Существительные, Наречия и т. Д. Есть ли конкретный процесс вокруг создания таких проверочных наборов? Какова стратегия, используемая для создания таких наборов данных?

PS: я знаю, что некоторые из этих наборов данных разработаны для определенной цели, но если мы просто хотим создать набор проверки, который похож на wordsim-353. Рекомендуется ли следовать аналогичному процессу, которому следовали создатели wordsim-353?

https://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/

Публично доступные наборы данных для проверки вложений Word:

Наборы слов Wordхожести

  • Элемент списка
  • WS-353
  • WS-353-SIM
  • WS-353-REL
  • MC-30
  • RG-65
  • Редкие слова (RW)
  • MEN
  • MTurk-287
  • MTurk-771
  • YP-130
  • SimLex-999
  • Глагол-143
  • SimVerb-3500

Наборы аналоговых данных Word

  • Набор данных Google
  • Набор данных MSR

Наборы категорий классификации

  • Набор данных AP
  • Набор данных BLESS
  • Набор данных BM

Наборы данных обнаружения выбросов

  • Набор данных WordSim-500
  • 8-8-8 набор данных

Ссылки:

https://arxiv.org/pdf/1901.09785
https://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/
https://www.aclweb.org/anthology/D15-1036
https://arxiv.org/pdf/1901.09785
https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12454/12257
https://cs224d.stanford.edu/lecture_notes/notes2.pdf
https://arxiv.org/abs/1801.09536
http://www.cl.cam.ac.uk/~ek358/CEWE_Final_lecture.pdf
http://www.marekrei.com/pub/Constructing_and_Evaluating_Word_Embeddings.pdf
...