В настоящее время я использую StanfordCoreNLP, чтобы делать токенизацию слов на китайском языке.В настоящее время мне уже удалось запустить токенизатор с python:
>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊,很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', ',', '很', '适合', '去', '游泳', '呢']
Однако теперь я хочу добавить свой собственный словарь для улучшения результата токенизации.Например, я хочу '很 适合' как один токен.(У меня фактически есть список слов как мой собственный диктат).Как мне сделать, чтобы добавить словарь?
Я уже знаю, что файл dict находится в файле .jar:
stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford\ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz
Но как я могу изменить его, так как я открыл его с помощью notepad ++, и тогда он оказался грязным кодом.