Question

В настоящее время я использую StanfordCoreNLP, чтобы делать токенизацию слов на китайском языке.В настоящее время мне уже удалось запустить токенизатор с python:

>>> from stanfordcorenlp import StanfordCoreNLP
>>> nlp = StanfordCoreNLP(r'D:/Yihua/FYP/Codes/stanford-corenlp-full-2018-10-05', lang = 'zh')
>>> abc = '今天天气不错啊，很适合去游泳呢'
>>> nlp.word_tokenize(abc)
['今天', '天气', '不错', '啊', '，', '很', '适合', '去', '游泳', '呢']

Однако теперь я хочу добавить свой собственный словарь для улучшения результата токенизации.Например, я хочу '很适合' как один токен.(У меня фактически есть список слов как мой собственный диктат).Как мне сделать, чтобы добавить словарь?

Я уже знаю, что файл dict находится в файле .jar:

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford\ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

Но как я могу изменить его, так как я открыл его с помощью notepad ++, и тогда он оказался грязным кодом.

StanfordNLPHelp · Answer 1 · 18 октября 2018

Здесь есть информация о создании собственного словаря:

https://nlp.stanford.edu/software/segmenter-faq.html

Вы можете включить наш словарь в список файлов и список ваших собственных файлов.

Как добавить словарь пользователя с StanfordCoreNLP

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford\ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как добавить словарь пользователя с StanfordCoreNLP

stanford-chinese-corenlp-2018-10-05-models.jar \ edu \ stanford\ nlp \ models \ segmenter \ chinese \ dict-chris6.ser.gz

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы