Замена сущностей, так же как и другие методы преобразования текста, в том числе основание и лемматизация, обычно является частью процесса извлечения отношений, поскольку увеличивает количество наблюдений на объект.Такое увеличение отношения может помочь вашей проблеме, в зависимости от размера набора данных, качества объектов, типа извлечения объектов и сложности модели.
Хорошее эмпирическое правило заключается в определении вашей цели и, следовательно, вашего приемлемого представления на основе вашего понимания набора данных.Например, данное руководство ставит перед собой задачу понять связь между miRNA и генами.Автор хорошо с группировкой miRNA-335, miRNA-342, miRNA-100 и другими под тем же названием.
В сценариях, где у вас нет понимания предметной области корпуса, вы можете начать без замены сущности, проверить результат и понять компромисс модели смещения.Затем, если необходимо, попробуйте заменить сущность после экспериментов с некоторыми методами кластеризации.