Когда замена сущности необходима для извлечения отношений? - PullRequest
0 голосов
/ 30 сентября 2018

В этом учебном пособии для «Обучения классификатора машинного обучения извлечению отношений из медицинской литературы» автор выполняет замену сущности, потому что «мы не хотим, чтобы модель обучалась по определенному имени сущности,но мы хотим, чтобы он изучал в соответствии со структурой текста ".

Это в целом верно или зависит от набора данных или используемых моделей?

1 Ответ

0 голосов
/ 14 октября 2018

Замена сущностей, так же как и другие методы преобразования текста, в том числе основание и лемматизация, обычно является частью процесса извлечения отношений, поскольку увеличивает количество наблюдений на объект.Такое увеличение отношения может помочь вашей проблеме, в зависимости от размера набора данных, качества объектов, типа извлечения объектов и сложности модели.

Хорошее эмпирическое правило заключается в определении вашей цели и, следовательно, вашего приемлемого представления на основе вашего понимания набора данных.Например, данное руководство ставит перед собой задачу понять связь между miRNA и генами.Автор хорошо с группировкой miRNA-335, miRNA-342, miRNA-100 и другими под тем же названием.

В сценариях, где у вас нет понимания предметной области корпуса, вы можете начать без замены сущности, проверить результат и понять компромисс модели смещения.Затем, если необходимо, попробуйте заменить сущность после экспериментов с некоторыми методами кластеризации.

...