Я не совсем уверен, что они означают; Лучшее решение - напрямую спросить об этом авторов статьи. Но похоже, что кластеризация была выполнена, чтобы сделать что-то, связанное с связыванием сущностей .
Связывание сущностей - это процесс устранения неоднозначности названных сущностей, обнаруженных в тексте, путем сопоставления их с уникальными идентификаторами (например, статьи Википедии или записи в базе данных). Например, «Вашингтон» может быть связан с городом «Вашингтон, округ Колумбия C», штатом «Вашингтон» или человеком «Джордж Вашингтон». С другой стороны, строки "Stanford", "Stanford University", "Leland Stanford Junior University", "LSJU", "Stanford U.", "Stanford uni", "University of Stanford", Stanford.edu "," Stanfurd "и еще несколько относятся к тому же учреждению. Эта информация не предоставляется чистыми моделями NER, потому что они могут сказать вам только то, что, например, в I graduated from Stanford U. in 2010
, Stanford U
- это школа - но не потому, что это какая-то конкретная c школа.
Вы можете захотеть использовать NEL, потому что модель NER предсказывает только то, что «Stanford U» - это название учебного заведения, или что «TeslaMotors» - это название компании. Тогда модель NEL предсказывает, что «Stanford U» на самом деле означает «Стэнфордский университет», а «TeslaMotors» на самом деле означает «Tesla, в c.» Таким образом, вы можете подумать, что названная сущность, связывающая каким-то образом «уточняет». распознанные сущности. Это полезно, например, если вы выполняете некоторую последующую задачу (например, классификацию резюме) с использованием найденных сущностей, и в обучающей выборке присутствует «Tesla, in c.», тогда как "TeslaMotors" - нет. В этой ситуации связывание именованных сущностей улучшит обобщающую способность нисходящей модели, потому что после NEL обе сущности будут трактоваться точно так же. база данных для всех их доменных c сущностей (школы, степени, навыки, должность и т. д. c.) или не имеют помеченного набора данных для обучения модели для связывания сущностей. Следовательно, вместо классического связывания сущностей они просто объединяют похожие вхождения сущностей в кластеры, надеясь, что строки, которые попадают в один и тот же кластер, действительно относятся к одному и тому же идентификатору.
Этот подход может показаться грубым, но он лучше, чем полное отсутствие связывания, и может предоставить хорошую отправную точку для ручной маркировки / связывания кластеров и, таким образом, создания набора данных для обучения контролируемой модели для связывания сущностей .