Насколько я понимаю, стандартная китайская модель CoreNLP реализует спецификацию Penn Chinese Treebank 3.0 для определения, что такое слово (https://repository.upenn.edu/cgi/viewcontent.cgi?article=1038&context=ircs_reports).). В спецификации упоминается несколько слов, таких как «Рассматривать его как одно слово с внутренней структурой». (раздел 2.10.2). Итак, два вопроса:
- Правильно ли мое понимание?
- Есть ли способ получить эту внутреннюю структуру от CoreNLP?
По сути, то, как работают руководящие принципы Пенна, не подходит ко всем моим сценариям использования, и наличие внутренней структуры, о которой они говорят, позволило бы мне это смягчить. Я также пробовал ФКУ, но у него есть свои причуды, и в некоторых случаях он терпит неудачу. очень простые предложения (например, 你 把 衣服 洗洗。). Я не смог найти никакой документации, и погружение в код пока не принесло большого понимания!