Как использовать алгоритм k-means для кластеризации атрибутов после NER? - PullRequest
2 голосов
/ 08 мая 2020

Я читаю этот документ и в подразделе 3.2.1, первый абзац, последние три строки,

Чтобы сопоставить именованные кандидаты сущностей со стандартными именами атрибутов, мы использовали алгоритм k-средних для кластеризации идентифицированных именованных объектов путем вычисления косинусного сходства между ними на основе частоты термина - обратной частоты документа (TFIDF). «

Кто-нибудь может объяснить, что это означает? По возможности приведите пример сценария реализации.

1 Ответ

3 голосов
/ 18 мая 2020

Я не совсем уверен, что они означают; Лучшее решение - напрямую спросить об этом авторов статьи. Но похоже, что кластеризация была выполнена, чтобы сделать что-то, связанное с связыванием сущностей .

Связывание сущностей - это процесс устранения неоднозначности названных сущностей, обнаруженных в тексте, путем сопоставления их с уникальными идентификаторами (например, статьи Википедии или записи в базе данных). Например, «Вашингтон» может быть связан с городом «Вашингтон, округ Колумбия C», штатом «Вашингтон» или человеком «Джордж Вашингтон». С другой стороны, строки "Stanford", "Stanford University", "Leland Stanford Junior University", "LSJU", "Stanford U.", "Stanford uni", "University of Stanford", Stanford.edu "," Stanfurd "и еще несколько относятся к тому же учреждению. Эта информация не предоставляется чистыми моделями NER, потому что они могут сказать вам только то, что, например, в I graduated from Stanford U. in 2010, Stanford U - это школа - но не потому, что это какая-то конкретная c школа.

Вы можете захотеть использовать NEL, потому что модель NER предсказывает только то, что «Stanford U» - это название учебного заведения, или что «TeslaMotors» - это название компании. Тогда модель NEL предсказывает, что «Stanford U» на самом деле означает «Стэнфордский университет», а «TeslaMotors» на самом деле означает «Tesla, в c.» Таким образом, вы можете подумать, что названная сущность, связывающая каким-то образом «уточняет». распознанные сущности. Это полезно, например, если вы выполняете некоторую последующую задачу (например, классификацию резюме) с использованием найденных сущностей, и в обучающей выборке присутствует «Tesla, in c.», тогда как "TeslaMotors" - нет. В этой ситуации связывание именованных сущностей улучшит обобщающую способность нисходящей модели, потому что после NEL обе сущности будут трактоваться точно так же. база данных для всех их доменных c сущностей (школы, степени, навыки, должность и т. д. c.) или не имеют помеченного набора данных для обучения модели для связывания сущностей. Следовательно, вместо классического связывания сущностей они просто объединяют похожие вхождения сущностей в кластеры, надеясь, что строки, которые попадают в один и тот же кластер, действительно относятся к одному и тому же идентификатору.

Этот подход может показаться грубым, но он лучше, чем полное отсутствие связывания, и может предоставить хорошую отправную точку для ручной маркировки / связывания кластеров и, таким образом, создания набора данных для обучения контролируемой модели для связывания сущностей .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...