Как добавить словарь пользователя с StanfordCoreNLP - PullRequest
0 голосов
/ 14 октября 2018

В настоящее время я использую StanfordCoreNLP, чтобы делать токенизацию слов на китайском языке.В настоящее время мне уже удалось запустить токенизатор с python:

>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊,很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', ',', '很', '适合', '去', '游泳', '呢']

Однако теперь я хочу добавить свой собственный словарь для улучшения результата токенизации.Например, я хочу '很 适合' как один токен.(У меня фактически есть список слов как мой собственный диктат).Как мне сделать, чтобы добавить словарь?


Я уже знаю, что файл dict находится в файле .jar:

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford\ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

Но как я могу изменить его, так как я открыл его с помощью notepad ++, и тогда он оказался грязным кодом.

1 Ответ

0 голосов
/ 18 октября 2018

Здесь есть информация о создании собственного словаря:

https://nlp.stanford.edu/software/segmenter-faq.html

Вы можете включить наш словарь в список файлов и список ваших собственных файлов.

...