Контекст: Я разрабатываю стратегии разрешения 2-го лица you последовательностей в эпицене 3-го лица (гендерно-нейтральные, единичные) они последовательности. Это уникальные рекомбинируемые последовательности, похожие на чатбота. Большинство, в этом случае, были решаемы с помощью простой замены строк на основе правил с оценкой недоумения для объективных ( их ) случаев и отдельной стратегии для императивных и запретительных утверждений.
Проблема: Однако я сталкиваюсь с, казалось бы, жестким ограничением для последовательностей, которые содержат как ссылку на множественное число они , так и единственный эпицен они . Токенизация и разбор зависимостей пока мало что дают для начала. SpaCy был моим основным программным обеспечением.
(Обратите внимание, что в приведенных ниже примерах местоимение не было употреблением эпицены они , но с учетом гендера, неоднозначность была бы решена. Однако это не вариант.)
Примеры:
«Когда кто-то играет с вами в игры, он устанавливает правила». становится"Когда они играют в игры, они устанавливают правила."
"Нет правил, кроме тех, которые вы устанавливаете друг с другом." становится «Нет никаких правил, кроме тех, которые они устанавливают друг с другом».
«Будут разочарования и задержки. Они в конечном итоге научат вас настойчивости». становится"Разочарования и задержки произойдут. В конечном итоге они научат их настойчивости".
И т. Д.
Вопросы:
Чего-то не хватает в моем понимании проблема? Правильно ли я сформулировал это?
Смогло ли бы моделирование по корреляции уладить разницу между анафорой?
Что еще мне следует предпринять, чтобы пометить их? Мне не нужно «разрешать» их обязательно.